Propostas com aluno identificado

Gerado a 2025-07-17 15:13:16 (Europe/Lisbon).

Voltar

Titulo Estágio

Adaptação de LLM para resposta a perguntas com raciocínio em português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI / CISUC

Enquadramento

O projeto AMALIA tem como objetivo principal a criação de um Modelo de Linguagem em
Grande Escala (LLM) para a Língua Portuguesa de Portugal.
É uma colaboração entre a Fundação para a Ciência e a Tecnologia, a Universidade Nova de Lisboa, o Instituto Superior Técnico, a Universidade do Porto, Universidade do Minho e a Universidade de Coimbra (UC).
Além do LLM base, estão a ser preparadas versões especializadas em diferentes domínios, e cabe à equipa da UC a especialização no domínio da Ciência.

Neste âmbito, será necessário treinar o modelo em documentos científicos e em tarefas úteis para este domínio. Umas dessas tarefas é a resposta automática a perguntas com explicitação do raciocínio (e.g., em passos lógicos), vulgarmente chamado de Chain of Thought (CoT).

Objetivo

O principal objetivo deste trabalho é dotar o modelo Amália da capacidade de responder a perguntas em português, no modo CoT, com foco no domínio da ciência.

Para adaptar o modelo ao domínio, serão explorados conjuntos disponíveis de artigos científicos e teses escritos em português, tais como o Corpus de Periódicos em Português (CoPEP) e documentos que estão a ser recolhidos no âmbito do projeto Amália, a partir de repositórios científicos.
Esses documentos poderão ser usados para adaptar o modelo a texto científico mas, para que ele tenha a capacidade de responder a perguntas, será necessário transformá-los num formato mais adequado, como instruções e respostas com o raciocínio detalhado.

O trabalho irá explorar diferentes formas de chegar a este formato, automática ou semi-automaticamente, recorrendo, sempre que necessário, a outras ferramentas computacionais, incluindo LLMs mais poderosos.

De forma a apurar os benefícios deste tipo de treino, a qualidade e o detalhe das respostas dadas pelo modelo base serão comparadas com as do modelo adaptado.
Pretende-se ainda comparar diferentes versões do modelo adaptado, treinado em diferentes quantidades de dados, em diferentes formatos e com diferentes origens, e também avaliar a possibilidade de sustentar respostas com referências científicas.

Além da avaliação manual de um pequeno conjunto de respostas, serão exploradas formas de avaliar os resultados automaticamente, por exemplo, com recurso a verificadores dos passos do CoT. Para tal, será criado um conjunto de dados a usar exclusivamente na avaliação.

A criação dos dados de treino e de avaliação, e também a avaliação manual, poderão recorrer a outros elementos da equipa do Amália, que inclui linguistas e especialistas em diferentes áreas científicas.

Plano de Trabalhos - Semestre 1

- Levantamento do estado da arte de LLMs e formas de adaptação
- Familiarização com o LLM Amália e os dados a usar
- Identificação de formas de transformação
- Preparação de dados de treino
- Definição de métricas avaliação

Plano de Trabalhos - Semestre 2

- Treino do LLM Amália em dados sequenciais
- Avaliação na previsão da próxima palavra
- Treino do LLM Amália em instruções e respostas CoT
- Preparação dos dados de avaliação de respostas CoT
- Avaliação das respostas e das explicações

Condições

O aluno terá acesso a um espaço para trabalhar no laboratório do CMS, e a computação de alto desempenho para realizar as experiências necessárias.
Terá ainda a possibilidade de se candidatar a uma bolsa de investigação para licenciado no valor de 1040€.

Orientador

Hugo Gonçalo Oliveira e Catarina Silva
hroliv@dei.uc.pt 📩