Titulo Estágio
Desenvolvimento e Integração de Modelos de Anonimização para Documentos Legais
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
Instituto Pedro Nunes, Coimbra (Laboratório de Informática e Sistemas)
Enquadramento
A anonimização é um processo crítico para proteger a privacidade de indivíduos. O IPN está a atualmente desenvolver uma solução para anonimização de documentos, pretendendo criar modelos robustos para identificação dos dados a anonimizar. O estagiário terá acesso a um conjunto de dados privado composto por mais de 20.000 documentos (mais de 20 milhões de tokens), que incluem tanto documentos não anonimizados quanto documentos anonimizados manualmente por especialistas, assim como a hardware necessário ao treino de modelos. Este estágio irá focar-se na exploração, implementação e comparação de diversas estratégias de anonimização utilizando modelos de linguagem de última geração (LLMs), tanto open source, como o Llama 3, quanto closed source, como o GPT.
Objetivo
O objetivo deste estágio é analisar e implementar diferentes abordagens para a anonimização de documentos legais. O estagiário será responsável por explorar e comparar métodos baseados em LLMs open source e closed source, bem como outras técnicas de anonimização de última geração. A solução deverá ser capaz de processar grandes volumes de dados de forma eficiente e garantir a precisão na anonimização, preservando ao máximo a usabilidade dos documentos anonimizados. Os modelos desenvolvidos devem receber como input um documento em formato de texto e devolver as entidades identificadas (texto que deve ser anonimizado). Para isso, deverá também ser desenvolvida uma API que permita a invocação remota de pedidos pela aplicação pré-existente. As soluções serão integradas num produto já em produção e avaliadas pela fiabilidade e comparação com o target de documentos já anonimizados.
Plano de Trabalhos - Semestre 1
Durante o 1º semestre, o projeto será composto pelas seguintes fases de desenvolvimento:
F1 – Análise do estado da arte (25% do semestre): Análise das tecnologias e algoritmos atuais de anonimização de documentos. Estudo comparativo entre LLMs open source (ex: Llama 3) e closed source (ex: GPT).
F2 – Levantamento de requisitos (25% do semestre): Identificação das melhores práticas e tecnologias a serem utilizadas no projeto. Definição dos critérios de avaliação das soluções implementadas e requisitos para a API.
F3 – Protótipo (50% do semestre): Desenvolvimento de protótipos para as diferentes estratégias de anonimização, incluindo a utilização de LLMs e outras técnicas. Início da implementação de uma API para integração dos modelos desenvolvidos.
Plano de Trabalhos - Semestre 2
Durante o 2º semestre, o projeto será composto pelas seguintes fases de desenvolvimento:
F4 – Implementação (70% do semestre): Desenvolvimento e implementação das soluções de anonimização selecionadas. Integração dos algoritmos no sistema de processamento de documentos e finalização da API.
F5 – Testes (20% do semestre): Testes rigorosos para avaliar a robustez, performance e precisão das soluções implementadas, incluindo a avaliação da API. Correção de erros e otimização dos algoritmos e da API.
F6 – Deploy e relatório de projeto (10% do semestre): Revisão final da aplicação desenvolvida, disponibilização para produção, elaboração do relatório final do projeto e documentação da API.
Condições
Estágio não remunerado.
Observações
Áreas de especialidade:
Processamento de Linguagem Natural
Inteligência Artificial
Orientador
Tiago de Almeida Pinto da Cunha Leal
tleal@ipn.pt 📩