Propostas com aluno identificado

DEI - FCTUC
Gerado a 2025-07-17 16:12:43 (Europe/Lisbon).
Voltar

Titulo Estágio

Modelo de Linguagem para Tarefas do Domínio Jurídico em Português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI / CISUC

Enquadramento

O projeto AI4Juris é uma parceria entre o Instituto Pedro Nunes, a empresa DataJuris, e o CISUC, onde se pretende apoiar e optimizar algumas das tarefas mais morosas da área jurídica, tirando partido da enorme quantidade de dados atualmente disponível e dos desenvolvimentos tecnológicos recentes nas áreas de Inteligência Artificial (IA) e Processamento de Linguagem Natural (PLN).
Pretendem-se explorar técnicas para anonimizar decisões de tribunais, classificar, anotar e sumariar documentos legais, bem como responder a perguntas acerca desses documentos.

Esta dissertação irá abordar a criação de um modelo de linguagem do domínio jurídico, em português, que possa facilitar a realização de algumas das tarefas anteriores, e servir de base a um Assistente Inteligente neste domínio.

Objetivo

O principal objetivo deste trabalho é a especialização de um modelo de linguagem (LLM) aberto ao domínio jurídico em português. Ele deve ser treinado em dados obtidos a partir da base de dados da DataJuris, já anonimizados. Caso necessário, este conjunto pode ser enriquecido com dados públicos já compilados (e.g., https://huggingface.co/datasets/MartimZanatti/Descriptors_STJ), ou em bruto (https://www.dgsi.pt/).

Uma vez analisados os modelos disponíveis, e feita a seleção do modelo a usar como base, deve ser realizada uma adaptação inicial ao domínio, em que o modelo terá contacto com texto jurídico, cru e / ou no formato de instruções, o que pode implicar a necessidade de converter os dados originais.

Numa segunda fase, será analisada a viabilidade do modelo para apoiar a anotação automática de documentos jurídicos. Mais propriamente, com base nas necessidades da DataJuris e em opções tomadas em trabalho relacionado, serão exploradas soluções que tirem partido do modelo para extrair entidades de categorias pré-definidas, a partir de novos documentos. Serão exploradas técnicas de prompt engineering, e será considerado um novo treino específico para a tarefa alvo. Para comparação com o estado da arte, as soluções desenvolvidas serão avaliadas em dados públicos (e.g., LeNER-BR), mas deverão também ser comparadas com documentos na base de dados da DataJuris.

Dependendo do sucesso na extração de entidades, será analisada a possibilidade de expandir os métodos adoptados para a realização de outras anotações, tais como a geração de sumários, onde as entidades extraídas podem ser úteis.

Plano de Trabalhos - Semestre 1

- Revisão do estado da arte: PLN no domínio jurídico, modelos de linguagem, assistentes inteligentes
- Familiarização com modelos abertos e seleção de modelo(s) base
- Preparação do treino e definição dos modos de interação
- Recolha e preparação de dados inicial

Plano de Trabalhos - Semestre 2

- Treino de LLM(s) em dados do domínio
- Experimentação inicial
- Treino do modelo para extração de entidades do domínio jurídico
- Avaliação em dados públicos
- Estudo da aplicação a outras anotações

Condições

O aluno terá acesso a um espaço para trabalhar no laboratório do CMS e terá a possibilidade de se candidatar a uma bolsa de investigação para licenciado no valor de 1040€.

Orientador

Hugo Gonçalo Oliveira e Catarina Silva
hroliv@dei.uc.pt 📩