Propostas Submetidas

DEI - FCTUC
Gerado a 2024-04-23 07:58:37 (Europe/Lisbon).
Voltar

Titulo Estágio

Criação de Bases de Conhecimento a partir de Documentos em Português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI / CISUC

Enquadramento

A Extração de Informação (EI) é uma sub-área do Processamento de Linguagem Natural (PLN) que tem como objetivo adquirir informação estruturada (e.g., entidades, relações) a partir de texto corrido.
Por exemplo, a partir da frase “O João perdeu o smartphone” seria possível extrair as entidades relevantes “João” e “smartphone” e também uma relação perdeu(João, smartphone).

Isto permite que a informação transmitida possa ser mais facilmente inserida em bases de dados, onde poderá ser interrogada através de linguagens como SQL.
Sobre estas bases de dados é possível depois desenvolver sistemas com a capacidade de responder a perguntas, incluindo chatbots.

Nos últimos anos foram propostas várias abordagens para EI, desde regras e padrões linguísticos, à aprendizagem supervisionada para análise de sequências, classificação de relações, resposta a perguntas, ou geração de conhecimento, ou mesmo aprendizagem não-supervisionada.
No entanto, dada a quantidade de aplicações possíveis e respetivos requisitos, nem todas as abordagens se aplicam a todos os cenários.
E quando consideramos as diferentes línguas em que o texto pode ser escrito, observamos um enorme volume de trabalho para a língua inglesa inglês, e um volume muito menor para quaisquer outras línguas, como o português.

Objetivo

O primeiro objetivo deste trabalho passa por identificar e explorar um leque de abordagens para EI em texto em português.
Inclui-se a experimentação de ferramentas já disponíveis para este fim, a adaptação de ferramentas disponíveis para o inglês, e a criação de novos modelos ou abordagens.
Deverá ser dado um foco especial a abordagens mais recentes, baseadas em redes neuronais do tipo Transformer, em que a EI já foi abordada através da análise de sequências, classificação de relações, resposta automática a perguntas, geração de conhecimento; e até de abordagens não-supervisonadas (e.g., zero-shot learning).

A experimentação poderá ser realizada em coleções de texto com algumas relações já anotadas (e.g., ReRelEM), ou obtidas a partir de recursos como a Wikipédia, normalmente utilizada como fonte de dados para supervisão distante.

As conclusões obtidas deverão culminar na definição de um ou mais casos de estudo. Para cada um, será definido o tipo de relações a extrair e um subconjunto de abordagens adequadas. A seleção de casos estará alinhada com um projeto de investigação a decorrer, considerando os dados disponíveis ou o custo da criação de um conjunto de dados de referência, que permita avaliar as abordagens desenvolvidas.

Estas servirão de base a mecanismos a desenvolver para criar uma base de conhecimento que possa ser interrogada. As tecnologias para a criação de bases de dados semânticas adaptam-se bem a este passo, ou seja, o conhecimento pode ser representado em RDF, e interrogado usando SPARQL.

Poderá ainda ser interessante explorar formas de interrogar a base de conhecimento utilizando português, como alternativa ao SPARQL. Isso implica o treino de modelos que consigam traduzir uma na outra.

Plano de Trabalhos - Semestre 1

- Revisão da literatura (NLP, EI).
- Identificação e familiarização com ferramentas úteis ao trabalho.
- Identificação de dados a usar na experimentação.
- Experiências preliminares.
- Definição de casos de estudo.
- Elaboração da proposta de dissertação.

Plano de Trabalhos - Semestre 2

- Experimentação e avaliação em cada caso de estudo.
- Criação da base de conhecimento.
- Avaliação da base de conhecimento.
- Elaboração da dissertação de mestrado.
- Explorar formas de interação em linguagem natural.
- Escrita de artigo científico.

Condições

O local de trabalho será num laboratório do CISUC, no DEI, onde haverá um acompanhamento regular por parte do orientador.
O trabalho será integrado num projeto de investigação em co-promoção, no âmbito do qual o estudante se poderá candidatar a uma bolsa de investigação para licenciado, durante um período entre 6 a 12 meses, no valor de 875€ / mês.

Observações

Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com os orientadores, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião, a marcar após um contacto por e-mail.

Orientador

Hugo Gonçalo Oliveira e Catarina Silva
hroliv@dei.uc.pt 📩