Propostas Submetidas

DEI - FCTUC
Gerado a 2025-07-17 14:25:17 (Europe/Lisbon).
Voltar

Titulo Estágio

Classificação Automática de Documentos Jurídicos em Português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI / CISUC

Enquadramento

O projeto AI4Juris resulta de uma parceria entre o Instituto Pedro Nunes, a empresa DataJuris, e o CISUC, onde se pretende apoiar e optimizar algumas das tarefas mais morosas da área jurídica, tirando partido da enorme quantidade de dados atualmente disponível e dos desenvolvimentos tecnológicos recentes nas áreas de Inteligência Artificial (IA) e Processamento de Linguagem Natural (PLN).
Pretendem-se explorar técnicas para anonimizar decisões de tribunais, classificar, anotar e sumariar documentos legais, bem como responder a perguntas acerca desses documentos.

O foco desta dissertação será a utilização de modelos recentes para a classificação automática de documentos jurídicos em português, adotando, no processo, técnicas de IA Explicável. Mais propriamente, devem considerar-se formas de tornar as decisões dos modelos usados mais transparentes e interpretáveis por humanos, que poderão assim ajudar a identificar eventuais problemas e suportar decisões com maior confiança.

Objetivo

O principal objetivo do trabalho é a classificação de acórdãos escritos em português.
Estes documentos têm vários campos classificados, e cada um apresenta diferentes desafios.

Um dos campos alvo será os descritores, que são muitos, e cada documento pode ter vários atribuídos (problema multilabel). Apesar dos desafios, há muitos dados disponíveis deste tipo, tais como Bases Jurídico-Documentais públicas em português (e.g., https://www.dgsi.pt/), e pelo menos um corpus com acórdãos e os seus descritores recentemente compilado (e.g., https://huggingface.co/datasets/MartimZanatti/Descriptors_STJ).

Os dados existentes permitem o fine-tuning de modelos de linguagem recentes (i.e., LLMs), baseados em blocos encoder (e.g., BERT), normalmente aplicados a tarefas de classificação; ou os LLMs mais populares, baseados em blocos decoder (causais), que podem ser treinados em instruções ou usados através de métodos de prompting (in-context learning).

Os resultados serão avaliados em dados reservados para tal, com base em métricas tradicionalmente usadas em problemas de classificação (precision, recall, F1).

Apesar do seu bom desempenho, os LLMs funcionam como caixas-negras, e não devem ser aplicados de forma cega, especialmente considerando o impacto de alguns campos a classificar (e.g., decisão do acórdão). Assim, o trabalho envolve também a exploração de métodos de IA Explicável e a seleção dos mais adequadas para tornar os resultados interpretáveis por humanos.

Plano de Trabalhos - Semestre 1

- Revisão do estado da arte: PLN no domínio jurídico, classificação de texto, IA Explicável
- Familiarização com LLMs abertos e seleção de modelos a usar
- Recolha, seleção e preparação de dados inicial
- Definição dos campos a classificar automaticamente

Plano de Trabalhos - Semestre 2

- Treino de modelos encoder para a classificação de acórdãos
- Exploração de LLM causais para a classificação de acórdãos
- Avaliação na tarefa de classificação
- Exploração e comparação de métodos para explicar os melhores modelos

Condições

O aluno terá acesso a um espaço para trabalhar no laboratório do CMS.
Terá ainda a possibilidade de se candidatar a uma bolsa de investigação para licenciado no valor de 1040€, com uma duração até 9 meses.

Orientador

Hugo Gonçalo Oliveira, Catarina Silva, Isabel Carvalho
hroliv@dei.uc.pt 📩