Titulo Estágio
Modelos Multimodais para Agentes AI de Voz
Áreas de especialidade
Sistemas Inteligentes
Engenharia de Software
Local do Estágio
Coimbra (office Taveiro)
Enquadramento
A adoção de agentes conversacionais tem crescido em praticamente todos os sectores, mas a grande maioria continua dependente de um pipeline clássico com três blocos distintos — Speech-to-Text (STT), Large Language Model (LLM) e Text-to-Speech (TTS). Esta abordagem modular impõe latências cumulativas, incoerências de contexto (p. ex., “loss of prosody” entre STT LLM TTS) e custos operacionais associados a múltiplos modelos.
A recente vaga de Speech-Language Large Models (SLLMs) open-weights—como SpeechGPT, LLaMA-Omni e MiniCPM-o, funde num único modelo, as capacidades de reconhecimento, raciocínio linguístico e síntese de voz. Ao partilhar representações internas áudio-texto, estes modelos prometem reduzir drasticamente a latência, melhorar a coerência conversacional e simplificar o deployment. Para operadores de telecomunicações e fornecedores de contact-center, isto abre caminho a experiências de voz mais naturais, multilingues e economicamente eficientes.
A WIT pretende explorar esta fase emergente, avaliando o estado da arte, os requisitos de licenciamento/hardware, e prototipando um agente de voz em tempo-real, totalmente suportado por um modelo multimodal open-weights, integrado com telefonia SIP e fontes de conhecimento empresariais via RAG (Retrieval-Augmented Generation).
Sobre a WIT:
A WIT tem 24 anos de experiência na área das telecomunicações e trabalha para o mercado global. A empresa já desenvolveu software para mais de 40 países e conta com os seguintes clientes: Grupo Vodafone, Deutsche Telekom, NTT DoCoMo, KDDI, Softbank, AT&T, Verizon, Safaricom, Vodacom, Unitel, entre outros. Na WIT somos groundbreakers e procuramos, todos os dias, desafiar o status quo, fazendo mais e diferente, sempre com o objectivo de sermos cada vez melhores. Descobre aqui se também tu podes ser um groundbreaker:
https://www.youtube.com/watch?v=Mt9sCqvJx9U
Objetivo
O estágio tem como objetivo principal investigar a próxima geração de Speech-Language Large Models (SLLMs) de código aberto — tais como SpeechGPT 7B, LLaMA-Omni e MiniCPM-o — e demonstrar de que forma um único modelo multimodal pode vir a substituir o pipeline clássico STT → LLM → TTS em agentes de voz de suporte ao cliente. Para tal, o trabalho inicia-se com uma revisão exaustiva do estado da arte, clarificando licenças, arquiteturas e requisitos de hardware, ao mesmo tempo que se estabelecem métricas-base de desempenho, custo e qualidade recorrendo ao pipeline tradicional.
Seguidamente, o estagiário deverá realizar uma avaliação comparativa rigorosa entre as duas abordagens, medindo Word Error Rate (WER), latência, Mean Opinion Score (MOS), consumo de recursos e custos operacionais. Com base nesses resultados, proceder-se-á ao fine-tuning do SLLM selecionado, usando técnicas de adaptação (LoRA) para especializar o modelo em diálogos de contacto-center multilingues e no tom de voz da plataforma WIT. Em paralelo, será integrado um mecanismo de Retrieval-Augmented Generation (RAG) que ligue o modelo a uma base vetorial de conhecimento para o agente, garantindo respostas atualizadas e contextualizadas.
Por fim, pretende-se interligar o SLLM a um sistema de telefonia SIP/WebRTC (como LiveKit) para obter inferência em tempo-real durante chamadas, otimizando a latência. O estágio deverá incluir a entrega de um protótipo funcional de agente de voz multimodal, capaz de alternar dinamicamente entre vários idiomas, e de um relatório técnico detalhado que quantifique os ganhos de desempenho, qualidade e custo da abordagem SLLM face ao pipeline convencional, fornecendo ainda recomendações para adoção industrial e alinhamento com normas GSMA/3GPP.
Plano de Trabalhos - Semestre 1
Para o 1º semestre estão planeadas as seguintes tarefas:
• Estado da Arte em SLLMs respectivas licenças e benchmarks atuais.
• Levantamento de requisitos como hardware (GPU), quantização, suporte WebRTC e análise de custos cloud vs on-prem.
• Instalação de ambiente de testes e preparação de datasets multilingues.
• Benchmarking preliminar de SpeechGPT, LLaMA-Omni e MiniCPM-o: latência, WER, MOS.
• Definição dos requisitos funcionais e não-funcionais do protótipo (idiomas, tempos de resposta alvo, escalabilidade).
• Criação de plano de desenvolvimento para o 2º semestre; primeiras sprints focadas em PoC standalone de inferência em tempo-real.
• Documentação intermédia dos resultados e desafios identificados.
Plano de Trabalhos - Semestre 2
Para o 2º semestre estão planeadas as seguintes tarefas:
• Fine-tuning do SLLM com LoRA usando diálogos de suporte ao cliente; avaliação iterativa de métricas pós-afinamento.
• Desenvolvimento/integração de backend para inferência em streaming com APIs simples para clientes SIP e Web.
• Implementação de RAG: escolha de BD vectorial e ingestão de dados, criação de fluxo Retrieve-And-Read em tempo-real.
• Integração SIP via LiveKit: criação de gateway que converte RTP ↔ PCM stream ↔ SLLM, com gestão de sessões e DTMF.
• Desenvolvimento de UI de monitorização (dashboards de latência, WER e MOS).
• Testes funcionais e de usabilidade com utilizadores internos multilingues; recolha de feedback.
• Avaliação de requisitos não-funcionais: segurança, privacidade, conformidade GDPR, robustez a ruído.
• Preparação do protótipo final para demonstrações a clientes/operadores; scripts de demo e documentação de instalação.
• Redação de relatório final e apresentação das conclusões, roadmap para produtizção e recomendações futuras.
No final do estágio, espera-se um protótipo funcional de agente de voz multimodal com suporte multilingue dinâmico, latência reduzida e qualidade vocal natural, acompanhado de um relatório comparativo exaustivo que evidencie os benefícios práticos dos SLLMs face ao pipeline tradicional.
Condições
O estágio será remunerado com uma bolsa mensal. Se o desempenho do aluno ao longo do mês for positivo, terá direito a receber a bolsa correspondente. O local de trabalho será no escritório da WIT Software em Taveiro, sendo o regime híbrido, com o número de dias presenciais a definir posteriormente.
O aluno terá ao seu dispor os equipamentos necessários para desempenhar as suas tarefas. Para além disso, o aluno terá ainda acesso às formações da WIT Academy e às actividades e eventos que decorrerem durante o seu estágio.
No final do estágio, será feita uma avaliação do estagiário e dos conhecimentos adquiridos. Se o resultado for positivo espera-se que o estagiário seja convidado para fazer parte da equipa de desenvolvimento.
Observações
O acompanhamento ao longo do estágio será feito não apenas pelo orientador, mas também por um tutor técnico que lhe dará todo o apoio necessário. O orientador define os requisitos do estágio, define as prioridades do backlog e acompanha os resultados parciais do projecto. O tutor garante o cumprimento das tarefas, promove as meetings e acompanha o aluno com mais regularidade.
Toda a documentação de projecto será escrita em inglês.
Será usado SCRUM, como metodologia de desenvolvimento.
Orientador
Paulo Jorge Pereira de Sousa
paulo.sousa@wit-software.com 📩