Propostas com alunos

DEI - FCTUC
Gerado a 2024-11-21 15:03:47 (Europe/Lisbon).
Voltar

Titulo Estágio

Assistente Inteligente para Anonimização de Documentos Legais

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

Laboratório de Informática e Sistemas (LIS), Instituto Pedro Nunes (IPN)

Enquadramento

A anonimização de decisões judiciais é um requisito essencial para que as decisões possam ser publicadas em plataforma de acesso livre cumprindo todos os requisitos do RGPD, bem como ocultando dados que permitam a identificação de cada caso concreto.Esta tarefa era, até à entrada deste produto no mercado, essencialmente feita de forma manual recorrendo a aplicações de edição de texto. Os elevadíssimos custos, bem como a complexidade da tarefa levam a que, em Portugal, o número de decisões judiciais publicadas seja muito inferior ao exigido.Como tal, pretende-se desenvolver uma ferramenta capaz de ajudar o utilizador nesta tarefa, tornando-a mais fiável e significativamente mais rápida. A ferramenta, ao processar um documento, irá automaticamente identificar os potenciais dados a anonimizar e promover alterações, de acordo com um conjunto de modelos com base em aprendizagem computacional e regras definidas.De forma resumida, a ferramenta irá receber um documento, identificar texto potencialmente alvo de anonimização e, recorrendo a um modelo de Processamento de Linguagem Natural (PLN) e a um conjunto adicional de regras, propor texto alternativo que oculte os dados originais, mantendo o documento semanticamente legível.Neste processo é requisito manter a integridade do documento ao nível da estrutura e formatação original, ocorrendo a substituição apenas ao nível do conteúdo. Será também desenvolvido um ambiente de utilização amigável, no qual um dos mais importantes focos será na otimização das tarefas e redução de tempo despendido por parte do utilizador.

Objetivo

Um primeiro protótipo desta aplicação já se encontra em processo de desenvolvimento. Tanto em termos do interface de utilizador, como em termos do uso de técnicas de Processamento de Linguagem Natural (PLN) e regras para identificar as palavras ou conjuntos de palavras que devem ser anonimizados.O trabalho inicial realizado revelou existir um grande potencial para evolução em termos de técnicas e/ ou modelos de PLN que sejam capazes de obter melhores resultados na identificação desses elementos. Contrariamente à situação inicial, presentemente existem já milhares de documentos e a sua versão anonimizada, que podem ser disponibilizados para treino de modelos.Sendo assim, o objectivo desta dissertação é a investigação das melhores técnicas e/ ou modelos de PLN, o que poderá incluir treinar um modelo de raiz, que permitam realizar a tarefa de identificar, num documento, palavras ou conjuntos de palavras que devem ser anonimizados.O módulo resultado do trabalho realizado durante esta dissertação, deverá ser integrado no protótipo da aplicação que se encontra em desenvolvimento.

Plano de Trabalhos - Semestre 1

- Revisão da literatura- Identificação e familiarização com ferramentas úteis ao trabalho- Identificação e tratamento de dados a usar no treino e validação de modelos- Análise de requisitos- Elaboração da proposta de dissertação.

Plano de Trabalhos - Semestre 2

- Experimentação- Implementação de soluções- Avaliação das abordagens propostas- Elaboração da dissertação de mestrado.- Escrita de artigo científico.

Condições

O trabalho será integrado num projeto de investigação em co-promoção, no
âmbito do qual o estudante se poderá candidatar a uma bolsa de
investigação para licenciado, durante um período de 6 meses renovável,
no valor de 875.98€ / mês.

Observações

Durante a fase de candidatura, dúvidas relacionadas com esta proposta,
nomeadamente acerca dos objetivos e condições, devem ser esclarecidas
com os orientadores, através de e-mail ou de uma reunião, a marcar após
um contacto por e-mail.

Orientador

Hugo Dinis Pereirinha da Silva Amaro
hamaro@ipn.pt 📩