Propostas Submetidas

DEI - FCTUC
Gerado a 2024-04-18 22:38:41 (Europe/Lisbon).
Voltar

Titulo Estágio

Processamento de documentos e dados tabulares para extração de informação toxicológica (NLP)

Áreas de especialidade

Sistemas Inteligentes

Sistemas de Informação

Local do Estágio

Laboratório de Informática e Sistemas IPN, Coimbra

Enquadramento

Diariamente, um consumidor comum é exposto a uma enorme panóplia de substâncias químicas sob uma multiplicidade de formas e provenientes das mais diversas fontes, desde os seus produtos de beleza e de higiene, à própria alimentação. Se, por um lado, estas substâncias assumem um papel indispensável no quotidiano das populações, por outro, podem também ser extremamente nocivas se indevidamente reguladas. A natureza ubíqua destas substâncias torna, por isso, imperativa a adoção de regulamentos e critérios rigorosos com vista à proteção da saúde humana e do ambiente, e a definição de metodologias eficientes na avaliação dos possíveis riscos que possam advir da sua utilização nos produtos finais de consumo. Neste contexto, o mercado Europeu tem vindo a assumir um posicionamento regulamentar cada vez mais forte.

No essencial, e de uma forma geral, todos os processos de registo e autorização de novas substâncias químicas e seus produtos finais requerem a preparação de documentação técnica e científica que permita avaliar e garantir a sua segurança, o que inclui sobretudo, a compilação e análise de toda a informação disponível sobre as suas propriedades intrínsecas, no âmbito de uma compreensiva análise toxicológica. A análise toxicológica é um processo transversal aos vários setores industriais atrás identificados, enquadrado num cenário de avaliação do risco associado à exposição a uma determinada substância, tendo em consideração todos os parâmetros toxicológicos críticos: toxicocinética, toxicidade aguda, toxicidade de dose repetida, irritação dérmica e ocular, sensibilização cutânea, mutagenicidade, genotoxicidade, carcinogenicidade, toxicidade foto-induzida, toxicidade reprodutiva e ecotoxicidade.

Neste panorama regulamentar cada vez mais austero e reconhecendo a complexidade do processo de análise toxicológica, bem como os fatores internos e externos que influenciam o seu desenvolvimento e a qualidade final dos resultados, torna-se evidente a necessidade de conceber novas estratégias para fazer face a estes desafios. Neste contexto, a aplicação de técnicas de Inteligência Artificial, designadamente Aprendizagem Computacional (AC) e Processamento de Linguagem Natural (PLN), apresentam-se com elevado potencial para diminuir o tempo despendido no processo de elaboração de análises toxicológicas de substâncias químicas, garantindo uma elevada qualidade, fiabilidade e até maior homogeneidade de resultados, em relação aos atualmente obtidos.

Esta dissertação será integrada num projeto de investigação em co-promoção, cujo objectivo global é o desenvolvimento de um sistema capaz de apoiar os Avaliadores de Segurança nas diversas fases da análise toxicológica. O sistema deverá não só realizar, de forma automatizada, todo o processo de pesquisa, análise e extração de dados relevantes, a partir dos estudos científicos e bases de dados de informação toxicológica, como também deverá compilar essa informação na forma de textos “prontos a usar” pelo Avaliador de Segurança, sugerindo-lhe o que deverá ser incluído em cada secção do perfil toxicológico.

Objetivo

Esta dissertação tem como principal objetivo a exploração de técnicas de processamento e extração de informação a partir de textos e dados tabulares.

O trabalho deverá assentar na aplicação de técnicas de Processamento de Linguagem Natural (NLP). Como tal, inicialmente, será necessária uma familiarização com as áreas de Normalização de Documentos, Segmentação de Tokenização, POS Tagging, Normalização de Termos, Identificação de Normalização de Entidades e Extração de Relações. Deverá ser feito também um estudo aprofundado das abordagens já existentes para o problema de extração de informação.

A extração de informação toxicológica a partir de estudos de análise de substâncias químicas será feita a partir de textos e dados tabulares provenientes de diversas fontes, pelo que o componente de processamento a desenvolver deverá ser capaz de eliminar a redundância de informação e ao mesmo tempo salvaguardar as múltiplas fontes que evidenciam a mesma informação. Existem, neste momento, diversas abordagens para o problema de extração de informação na literatura científica, pelo que estas deverão ser analisadas de forma a identificar as mais promissoras a implementar para este contexto, de forma a que possa ser efectuada uma comparação de resultados obtidos.

O problema de extração de informação toxicológica a partir de textos técnicos é um problema pouco abordado pela literatura científica, pelo que, acreditamos que possam surgir contribuições científicas relevantes deste trabalho.

O desenvolvimento e validação do trabalho a realizar, no que respeita ao processamento e extração de informação, será feito com base nos dados históricos da empresa envolvida neste projeto, que atua na área há diversos anos e possui, neste momento, mais de 2000 ingredientes que foram analisados manualmente por pessoal especializado, para os quais existe disponível os documentos e outras fontes que foram analisadas, para cada ingrediente, assim como a informação toxicológica extraída.
A solução a desenvolver será posteriormente aplicada, para extração de informação toxicológica, em dados recolhidos a partir de diversas bases de dados públicas que possuem documentos científicos e informação tabular, relativamente à toxicidade dos ingredientes. Estas bases de dados, são as mesmas que foram usadas para a recolha dos dados que serão usados para treino e validação, referidos em cima. Entre outras, serão usadas: o repositório de opiniões do SCCS, o portal da “European Chemicals Agency” (ECHA) e a biblioteca de relatórios oficiais do painel de especialistas do “Cosmetic Ingredient Review” (CIR).

Plano de Trabalhos - Semestre 1

- Revisão da literatura
- Identificação e familiarização com ferramentas úteis ao trabalho
- Identificação de dados usar no treino e validação dos modelos
- Análise de requisitos
- Elaboração da proposta de dissertação.

Plano de Trabalhos - Semestre 2

- Experimentação
- Implementação de soluções
- Avaliação das abordagens propostas
- Elaboração da dissertação de mestrado.
- Escrita de artigo científico.

Condições

O local de trabalho será no Laboratório de Informática e Sistemas do IPN, caso a situação pandémica o permita.
O trabalho será integrado num projeto de investigação em co-promoção, no âmbito do qual o estudante se poderá candidatar a uma bolsa de investigação para licenciado, durante um período de 6 meses renovável, no valor de 835€ / mês.

Observações

Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com os orientadores, através de e-mail ou de uma reunião, a marcar após um contacto por e-mail.

Orientador

Hugo Dinis Pereirinha da Silva Amaro
hamaro@ipn.pt 📩