Titulo Estágio
Adaptação de LLMs para tarefas de Text Mining em português
Local do Estágio
DEI / CISUC
Enquadramento
O projeto AMALIA tem como objetivo principal a criação de um Modelo de Linguagem em
Grande Escala (LLM) para a Língua Portuguesa de Portugal.
É uma colaboração entre a Fundação para a Ciência e a Tecnologia, a Universidade Nova de Lisboa, o Instituto Superior Técnico, a Universidade do Porto, Universidade do Minho e a Universidade de Coimbra (UC).
Além do LLM base, estão a ser preparadas versões especializadas em diferentes domínios, e cabe à equipa da UC a especialização no domínio da Ciência.
Neste âmbito, será necessário treinar o modelo em documentos científicos e aplicá-lo a tarefas úteis neste domínio, tais como a identificação de área científica ou a sumarização automática, tradicionalmente realizadas no âmbito de text mining.
Objetivo
O principal objetivo deste trabalho é a adaptação do modelo Amália à realização de duas tarefas em concreto: (i) classificação da área científica de excertos / documentos científicos em português; (ii) sumarização de documentos científicos em português.
Na área de text mining, estas tarefas são normalmente abordadas através de aprendizagem supervisionada, e recorrem a conjuntos de textos já anotados (classificação) ou sumariados (sumarização) para treino e avaliação. No entanto, o LLM Amália deverá realizar estas tarefas através de instruções em linguagem natural. E mesmo que seja possível aproximar estas tarefas com o modelo base, através de prompts específicos, a sua capacidade será limitada e não especializada no domínio da Ciência.
Deste trabalho deve sair uma proposta para especializar o modelo na realização destas tarefas. Será possível recorrer a conjuntos de documentos científicos já pré-processados (e.g., CoPEP, Corpus de Periódicos em Português) e obter mais dados através do pré-processamento de documentos PDF, de onde se poderá extrair o texto separado por secções (e.g., abstract, Introdução, Conclusão, Referências). O abstract será usado como sumário de referência, enquanto que a área científica pode ser obtida a partir de metadados. Serão depois exploradas diferentes formas para converter estes dados para um formato de instruções a usar no treino do modelo.
Entre outros, será importante tirar conclusões acerca dos formatos mais eficientes, da quantidade de dados necessária e a melhor forma de os combinar, de melhorias relativamente ao modelo base, do impacto na realização de outras tarefas, e dos melhores hiperparâmetros. As várias receitas serão avaliadas através de métricas tradicionalmente usadas para as tarefas de classificação e sumarização automática.
No final, deve ser discutida a possibilidade de aplicar a receita proposta à incorporação de outros casos de uso.
Plano de Trabalhos - Semestre 1
- Levantamento do estado da arte: LLMs, classificação de texto, sumarização automática
- Familiarização com o LLM Amália
- Definição das instruções para cada tarefa
- Preparação de dados de treino e avaliação
Plano de Trabalhos - Semestre 2
- Experimentação variando os dados
- Experimentação variando hiperparâmetros
- Avaliação na tarefa de classificação
- Avaliação na tarefa de sumarização
- Proposta de Otimizador de Treino de LLMs me tarefas Text Mining
Condições
O aluno terá acesso a um espaço para trabalhar no laboratório do CMS.
Terá ainda a possibilidade de se candidatar a uma bolsa de investigação para licenciado no valor de 1040€, com uma duração de 6 a 9 meses.
Orientador
Hugo Gonçalo Oliveira e João Nuno Correia
hroliv@dei.uc.pt 📩