Propostas Submetidas

Gerado a 2025-07-17 14:18:03 (Europe/Lisbon).

Voltar

Titulo Estágio

Sumarização e Classificação de Documentos Jurídicos com Integração em Assistente Inteligente

Áreas de especialidade

Engenharia de Software

Sistemas Inteligentes

Local do Estágio

Instituto Pedro Nunes, Coimbra (Laboratório de Informática e Sistemas)

Enquadramento

O sistema judicial português produz diariamente um elevado volume de documentos, dificultando a pesquisa e análise rápidas por parte de profissionais do Direito. O IPN encontra-se a colaborar num projeto co-financiado que visa acelerar estas tarefas através de técnicas avançadas de Processamento de Linguagem Natural (NLP).
No âmbito deste projeto, existe já um corpus significativo de decisões judiciais e legislação em língua portuguesa, bem como infraestrutura de computação dedicada ao treino de grandes modelos de linguagem. Pretende-se agora evoluir dois componentes estratégicos: (i) modelos de sumarização e classificação que gerem resumos fiéis e etiquetas temáticas para diferentes tipos de texto jurídico; (ii) a integração destes modelos num assistente conversacional que permita aos utilizadores consultar, filtrar e obter explicações sobre documentos de forma natural e transparente.

Objetivo

Desenvolver, treinar e avaliar modelos de sumarização e de classificação de documentos jurídicos em português europeu, integrando-os posteriormente num assistente inteligente. O(a) estagiário(a) deverá:
• Construir pipelines de preparação de dados a partir do corpus interno existente, composto por datasets confidenciais com dezenas de milhares de documentos anotados por especialistas, assim como datasets recolhidos de fontes públicas, contendo centenas de milhares de documentos;
• Avaliar estratégias de fine-tuning e prompting em modelos de linguagem de última geração (LLMs) para sumarização e classificação;
• Identificar (ou adaptar) métricas de avaliação adequadas ao domínio jurídico e medir o desempenho obtido;
• Expor as funcionalidades através de uma API consumida pelo assistente inteligente, garantindo tempos de resposta compatíveis com uso em produção;
• Elaborar documentação técnica e recomendações para futura expansão.

Plano de Trabalhos - Semestre 1

• F1 – Revisão do estado da arte (20%): levantamento de métodos de sumarização abstrativa, classificação multi-rótulo e boas práticas de avaliação em textos jurídicos.
• F2 – Análise de requisitos e preparação de dados (25%): caracterização do corpus existente, definição das categorias de classificação e construção de conjuntos de treino, validação e teste.
• F3 – Protótipos iniciais (45%): fine-tuning de pelo menos um modelo open-source e experimentação de técnicas baseadas em instruções (prompt engineering) para gerar sumários consistentes e etiquetas corretas.
• F4 – Relatório intermédio (10 %): Elaboração e entrega do relatório intermédio.

Plano de Trabalhos - Semestre 2

• F5 – Implementação e otimização (60%): treino incremental de modelos selecionados, compressão ou distilação se necessário, e comparação sistemática com baselines.
• F6 – Integração e testes (30%): exposição dos modelos via API REST, acoplamento ao assistente inteligente, testes de desempenho e usabilidade com utilizadores internos.
• F7 – Relatório final e transferência (10%): redacção de relatório técnico-científico, preparação de guias de utilização e apresentação dos resultados à equipa do projeto.

Condições

Este trabalho será integrado num projeto de investigação cofinanciado, sendo que o aluno poderá candidatar-se a uma bolsa de investigação para licenciado no âmbito deste projeto, nos termos da legislação aplicável e regulamentos do IPN. O valor da bolsa é de 1040,98€, em linha com a tabela de bolsas de investigação da FCT.

Observações

Áreas de especialidade:
Processamento de Linguagem Natural
Modelos de Linguagem de Grande Dimensão
Assistentes Conversacionais e Interfaces Inteligentes

Orientador

Bruno Alexandre Fonseca Santos
basantos@ipn.pt 📩