Propostas Submetidas

Gerado a 2025-07-17 13:55:40 (Europe/Lisbon).

Voltar

Titulo Estágio

Modelos Multimodais para Agentes AI de Voz

Áreas de especialidade

Sistemas Inteligentes

Engenharia de Software

Local do Estágio

Coimbra (office Taveiro)

Enquadramento

A adoção de agentes conversacionais tem crescido em praticamente todos os sectores, mas a grande maioria continua dependente de um pipeline clássico com três blocos distintos — Speech-to-Text (STT), Large Language Model (LLM) e Text-to-Speech (TTS). Esta abordagem modular impõe latências cumulativas, incoerências de contexto (p. ex., “loss of prosody” entre STT  LLM  TTS) e custos operacionais associados a múltiplos modelos.

A recente vaga de Speech-Language Large Models (SLLMs) open-weights—como SpeechGPT, LLaMA-Omni e MiniCPM-o, funde num único modelo, as capacidades de reconhecimento, raciocínio linguístico e síntese de voz. Ao partilhar representações internas áudio-texto, estes modelos prometem reduzir drasticamente a latência, melhorar a coerência conversacional e simplificar o deployment. Para operadores de telecomunicações e fornecedores de contact-center, isto abre caminho a experiências de voz mais naturais, multilingues e economicamente eficientes.

A WIT pretende explorar esta fase emergente, avaliando o estado da arte, os requisitos de licenciamento/hardware, e prototipando um agente de voz em tempo-real, totalmente suportado por um modelo multimodal open-weights, integrado com telefonia SIP e fontes de conhecimento empresariais via RAG (Retrieval-Augmented Generation).

Sobre a WIT:
A WIT tem 24 anos de experiência na área das telecomunicações e trabalha para o mercado global. A empresa já desenvolveu software para mais de 40 países e conta com os seguintes clientes: Grupo Vodafone, Deutsche Telekom, NTT DoCoMo, KDDI, Softbank, AT&T, Verizon, Safaricom, Vodacom, Unitel, entre outros. Na WIT somos groundbreakers e procuramos, todos os dias, desafiar o status quo, fazendo mais e diferente, sempre com o objectivo de sermos cada vez melhores. Descobre aqui se também tu podes ser um groundbreaker:
https://www.youtube.com/watch?v=Mt9sCqvJx9U

Objetivo

O estágio tem como objetivo principal investigar a próxima geração de Speech-Language Large Models (SLLMs) de código aberto — tais como SpeechGPT 7B, LLaMA-Omni e MiniCPM-o — e demonstrar de que forma um único modelo multimodal pode vir a substituir o pipeline clássico STT → LLM → TTS em agentes de voz de suporte ao cliente. Para tal, o trabalho inicia-se com uma revisão exaustiva do estado da arte, clarificando licenças, arquiteturas e requisitos de hardware, ao mesmo tempo que se estabelecem métricas-base de desempenho, custo e qualidade recorrendo ao pipeline tradicional.

Seguidamente, o estagiário deverá realizar uma avaliação comparativa rigorosa entre as duas abordagens, medindo Word Error Rate (WER), latência, Mean Opinion Score (MOS), consumo de recursos e custos operacionais. Com base nesses resultados, proceder-se-á ao fine-tuning do SLLM selecionado, usando técnicas de adaptação (LoRA) para especializar o modelo em diálogos de contacto-center multilingues e no tom de voz da plataforma WIT. Em paralelo, será integrado um mecanismo de Retrieval-Augmented Generation (RAG) que ligue o modelo a uma base vetorial de conhecimento para o agente, garantindo respostas atualizadas e contextualizadas.

Por fim, pretende-se interligar o SLLM a um sistema de telefonia SIP/WebRTC (como LiveKit) para obter inferência em tempo-real durante chamadas, otimizando a latência. O estágio deverá incluir a entrega de um protótipo funcional de agente de voz multimodal, capaz de alternar dinamicamente entre vários idiomas, e de um relatório técnico detalhado que quantifique os ganhos de desempenho, qualidade e custo da abordagem SLLM face ao pipeline convencional, fornecendo ainda recomendações para adoção industrial e alinhamento com normas GSMA/3GPP.

Plano de Trabalhos - Semestre 1

Para o 1º semestre estão planeadas as seguintes tarefas:

• Estado da Arte em SLLMs respectivas licenças e benchmarks atuais.
• Levantamento de requisitos como hardware (GPU), quantização, suporte WebRTC e análise de custos cloud vs on-prem.
• Instalação de ambiente de testes e preparação de datasets multilingues.
• Benchmarking preliminar de SpeechGPT, LLaMA-Omni e MiniCPM-o: latência, WER, MOS.
• Definição dos requisitos funcionais e não-funcionais do protótipo (idiomas, tempos de resposta alvo, escalabilidade).
• Criação de plano de desenvolvimento para o 2º semestre; primeiras sprints focadas em PoC standalone de inferência em tempo-real.
• Documentação intermédia dos resultados e desafios identificados.

Plano de Trabalhos - Semestre 2

Para o 2º semestre estão planeadas as seguintes tarefas:

• Fine-tuning do SLLM com LoRA usando diálogos de suporte ao cliente; avaliação iterativa de métricas pós-afinamento.
• Desenvolvimento/integração de backend para inferência em streaming com APIs simples para clientes SIP e Web.
• Implementação de RAG: escolha de BD vectorial e ingestão de dados, criação de fluxo Retrieve-And-Read em tempo-real.
• Integração SIP via LiveKit: criação de gateway que converte RTP ↔ PCM stream ↔ SLLM, com gestão de sessões e DTMF.
• Desenvolvimento de UI de monitorização (dashboards de latência, WER e MOS).
• Testes funcionais e de usabilidade com utilizadores internos multilingues; recolha de feedback.
• Avaliação de requisitos não-funcionais: segurança, privacidade, conformidade GDPR, robustez a ruído.
• Preparação do protótipo final para demonstrações a clientes/operadores; scripts de demo e documentação de instalação.
• Redação de relatório final e apresentação das conclusões, roadmap para produtizção e recomendações futuras.

No final do estágio, espera-se um protótipo funcional de agente de voz multimodal com suporte multilingue dinâmico, latência reduzida e qualidade vocal natural, acompanhado de um relatório comparativo exaustivo que evidencie os benefícios práticos dos SLLMs face ao pipeline tradicional.

Condições

O estágio será remunerado com uma bolsa mensal. Se o desempenho do aluno ao longo do mês for positivo, terá direito a receber a bolsa correspondente. O local de trabalho será no escritório da WIT Software em Taveiro, sendo o regime híbrido, com o número de dias presenciais a definir posteriormente.

O aluno terá ao seu dispor os equipamentos necessários para desempenhar as suas tarefas. Para além disso, o aluno terá ainda acesso às formações da WIT Academy e às actividades e eventos que decorrerem durante o seu estágio.

No final do estágio, será feita uma avaliação do estagiário e dos conhecimentos adquiridos. Se o resultado for positivo espera-se que o estagiário seja convidado para fazer parte da equipa de desenvolvimento.

Observações

O acompanhamento ao longo do estágio será feito não apenas pelo orientador, mas também por um tutor técnico que lhe dará todo o apoio necessário. O orientador define os requisitos do estágio, define as prioridades do backlog e acompanha os resultados parciais do projecto. O tutor garante o cumprimento das tarefas, promove as meetings e acompanha o aluno com mais regularidade.
Toda a documentação de projecto será escrita em inglês.
Será usado SCRUM, como metodologia de desenvolvimento.

Orientador

Paulo Jorge Pereira de Sousa
paulo.sousa@wit-software.com 📩