Titulo Estágio
Criação de Bases de Conhecimento a partir de Documentos em Português
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI / CISUC
Enquadramento
A Extração de Informação (EI) é uma sub-área do Processamento de Linguagem Natural (PLN) que tem como objetivo adquirir informação estruturada (e.g., entidades, relações) a partir de texto corrido.
Por exemplo, a partir da frase “O João perdeu o smartphone” seria possível extrair as entidades relevantes “João” e “smartphone” e também uma relação perdeu(João, smartphone).
Isto permite que a informação transmitida possa ser mais facilmente inserida em bases de dados, onde poderá ser interrogada através de linguagens como SQL.
Sobre estas bases de dados é possível depois desenvolver sistemas com a capacidade de responder a perguntas, incluindo chatbots.
Nos últimos anos foram propostas várias abordagens para EI, desde regras e padrões linguísticos, à aprendizagem supervisionada para análise de sequências, classificação de relações, resposta a perguntas, ou geração de conhecimento, ou mesmo aprendizagem não-supervisionada.
No entanto, dada a quantidade de aplicações possíveis e respetivos requisitos, nem todas as abordagens se aplicam a todos os cenários.
E quando consideramos as diferentes línguas em que o texto pode ser escrito, observamos um enorme volume de trabalho para a língua inglesa inglês, e um volume muito menor para quaisquer outras línguas, como o português.
Objetivo
O primeiro objetivo deste trabalho passa por identificar e explorar um leque de abordagens para EI em texto em português.
Inclui-se a experimentação de ferramentas já disponíveis para este fim, a adaptação de ferramentas disponíveis para o inglês, e a criação de novos modelos ou abordagens.
Deverá ser dado um foco especial a abordagens mais recentes, baseadas em redes neuronais do tipo Transformer, em que a EI já foi abordada através da análise de sequências, classificação de relações, resposta automática a perguntas, geração de conhecimento; e até de abordagens não-supervisonadas (e.g., zero-shot learning).
A experimentação poderá ser realizada em coleções de texto com algumas relações já anotadas (e.g., ReRelEM), ou obtidas a partir de recursos como a Wikipédia, normalmente utilizada como fonte de dados para supervisão distante.
As conclusões obtidas deverão culminar na definição de um ou mais casos de estudo. Para cada um, será definido o tipo de relações a extrair e um subconjunto de abordagens adequadas. A seleção de casos estará alinhada com um projeto de investigação a decorrer, considerando os dados disponíveis ou o custo da criação de um conjunto de dados de referência, que permita avaliar as abordagens desenvolvidas.
Estas servirão de base a mecanismos a desenvolver para criar uma base de conhecimento que possa ser interrogada. As tecnologias para a criação de bases de dados semânticas adaptam-se bem a este passo, ou seja, o conhecimento pode ser representado em RDF, e interrogado usando SPARQL.
Poderá ainda ser interessante explorar formas de interrogar a base de conhecimento utilizando português, como alternativa ao SPARQL. Isso implica o treino de modelos que consigam traduzir uma na outra.
Plano de Trabalhos - Semestre 1
- Revisão da literatura (NLP, EI).
- Identificação e familiarização com ferramentas úteis ao trabalho.
- Identificação de dados a usar na experimentação.
- Experiências preliminares.
- Definição de casos de estudo.
- Elaboração da proposta de dissertação.
Plano de Trabalhos - Semestre 2
- Experimentação e avaliação em cada caso de estudo.
- Criação da base de conhecimento.
- Avaliação da base de conhecimento.
- Elaboração da dissertação de mestrado.
- Explorar formas de interação em linguagem natural.
- Escrita de artigo científico.
Condições
O local de trabalho será num laboratório do CISUC, no DEI, onde haverá um acompanhamento regular por parte do orientador.
O trabalho será integrado num projeto de investigação em co-promoção, no âmbito do qual o estudante se poderá candidatar a uma bolsa de investigação para licenciado, durante um período entre 6 a 12 meses, no valor de 875€ / mês.
Observações
Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com os orientadores, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião, a marcar após um contacto por e-mail.
Orientador
Hugo Gonçalo Oliveira e Catarina Silva
hroliv@dei.uc.pt 📩