Propostas atribuídas 2025/2026

Gerado a 2025-07-27 17:38:01 (Europe/Lisbon).

Titulo Estágio

Adaptação de LLMs para tarefas de Text Mining em português

Local do Estágio

DEI / CISUC

Enquadramento

O projeto AMALIA tem como objetivo principal a criação de um Modelo de Linguagem em
Grande Escala (LLM) para a Língua Portuguesa de Portugal.
É uma colaboração entre a Fundação para a Ciência e a Tecnologia, a Universidade Nova de Lisboa, o Instituto Superior Técnico, a Universidade do Porto, Universidade do Minho e a Universidade de Coimbra (UC).
Além do LLM base, estão a ser preparadas versões especializadas em diferentes domínios, e cabe à equipa da UC a especialização no domínio da Ciência.

Neste âmbito, será necessário treinar o modelo em documentos científicos e aplicá-lo a tarefas úteis neste domínio, tais como a identificação de área científica ou a sumarização automática, tradicionalmente realizadas no âmbito de text mining.

Objetivo

O principal objetivo deste trabalho é a adaptação do modelo Amália à realização de duas tarefas em concreto: (i) classificação da área científica de excertos / documentos científicos em português; (ii) sumarização de documentos científicos em português.

Na área de text mining, estas tarefas são normalmente abordadas através de aprendizagem supervisionada, e recorrem a conjuntos de textos já anotados (classificação) ou sumariados (sumarização) para treino e avaliação. No entanto, o LLM Amália deverá realizar estas tarefas através de instruções em linguagem natural. E mesmo que seja possível aproximar estas tarefas com o modelo base, através de prompts específicos, a sua capacidade será limitada e não especializada no domínio da Ciência.

Deste trabalho deve sair uma proposta para especializar o modelo na realização destas tarefas. Será possível recorrer a conjuntos de documentos científicos já pré-processados (e.g., CoPEP, Corpus de Periódicos em Português) e obter mais dados através do pré-processamento de documentos PDF, de onde se poderá extrair o texto separado por secções (e.g., abstract, Introdução, Conclusão, Referências). O abstract será usado como sumário de referência, enquanto que a área científica pode ser obtida a partir de metadados. Serão depois exploradas diferentes formas para converter estes dados para um formato de instruções a usar no treino do modelo.

Entre outros, será importante tirar conclusões acerca dos formatos mais eficientes, da quantidade de dados necessária e a melhor forma de os combinar, de melhorias relativamente ao modelo base, do impacto na realização de outras tarefas, e dos melhores hiperparâmetros. As várias receitas serão avaliadas através de métricas tradicionalmente usadas para as tarefas de classificação e sumarização automática.

No final, deve ser discutida a possibilidade de aplicar a receita proposta à incorporação de outros casos de uso.

Plano de Trabalhos - Semestre 1

- Levantamento do estado da arte: LLMs, classificação de texto, sumarização automática
- Familiarização com o LLM Amália
- Definição das instruções para cada tarefa
- Preparação de dados de treino e avaliação

Plano de Trabalhos - Semestre 2

- Experimentação variando os dados
- Experimentação variando hiperparâmetros
- Avaliação na tarefa de classificação
- Avaliação na tarefa de sumarização
- Proposta de Otimizador de Treino de LLMs me tarefas Text Mining

Condições

O aluno terá acesso a um espaço para trabalhar no laboratório do CMS.
Terá ainda a possibilidade de se candidatar a uma bolsa de investigação para licenciado no valor de 1040€, com uma duração de 6 a 9 meses.

Orientador

Hugo Gonçalo Oliveira e João Nuno Correia
hroliv@dei.uc.pt 📩