Propostas de Estágio 2012/2013

DEI - FCTUC
Gerado a 2024-11-21 19:49:27 (Europe/Lisbon).
Voltar

Titulo Estágio

Extração de informação a partir de texto em português

Área Tecnológica

Inteligência Artificial

Local do Estágio

DEI - Laboratório de Inteligência Artificial

Enquadramento

Hoje em dia, a maior parte do conhecimento disponível através da Web e encontra-se representado através de linguagem natural. No entanto, a linguagem natural não é o formato ideal para representar o conhecimento de forma a que outras aplicações possam tirar dele partido dele, na realização de tarefas como a sumarização ou a resposta automática a perguntas.

A Extração de Informação (EI) é uma tarefa que procura adquirir conhecimento de fontes em linguagem natural, e estruturá-lo em bases de dados ou ontologias. Entre as possíveis sub-tarefas da EI encontra-se a identificação de identidades (e.g. carro, Google, Universidade de Coimbra) ou a descoberta de relações entre entidades (e.g. carro tem-parte roda, YouTube propriedade-de Google, Universidade de Coimbra localizada-em Portugal).

Existem várias técnicas para realizar a EI. O tipo informação que se pretende extrair, as necessidades de adaptação do sistema a diferentes cenários, e o material de treino disponível devem ser alguns dos pontos a ter em atenção na escolha da abordagem a seguir. Destacam-se as abordagens baseadas na construção de um conjunto de regras, abordagens levemente supervisionadas que extraem nova informação com base num pequeno conjunto de sementes, ou abordagens completamente supervisionadas, que necessitam de uma grande quantidade de material de treino para aprender o que extrair e o que não extrair.

Recentemente, o sistema ReVerb mostrou é possível extrair relações binárias sem um domínio pré-definido sem material de treino, de uma forma escalável a grandes quantidades de texto.


Ver http://reverb.cs.washington.edu/

Objetivo

Este trabalho tem como objectivo fazer uma abordagem à EI a partir de texto em português. O ponto de partida será extrair alguns tipos de relação pré-definidos, reutilizando, por exemplo, as gramáticas disponibilizadas pelo projecto Onto.PT , que foram já utilizadas na extração de relações a partir da Wikipédia.

A sequência do trabalho será implementar uma ou mais técnicas de EI documentadas no estado da arte, adaptá-las ao português, e avaliar as vantagens e desvantagens entre as várias abordagem. Será interessante também poder atribuir uma confiança a cada facto extraído.

O sistema desenvolvido poderá ser utilizado na resolução de tarefas como o ReReLEM , que consiste na identificação de um conjunto de relações entre nomes próprios em texto português.
Além disso, a informação extraída poderá ser utilizada para enriquecer o Onto.PT , uma ontologia para a língua portuguesa, ou para melhorar o desempenho do RAPPORT, um sistema de resposta automática a perguntas, ambos trabalhos em desenvolvimento no laboratório KIS.

Ver http://ontopt.dei.uc.pt/index.php?sec=recursos
Ver http://www.linguateca.pt/HAREM/
Ver http://ontopt.dei.uc.pt/

Plano de Trabalhos - Semestre 1

• Revisão bibliográfica
• Estudo do estado da arte relativamente extracção de informação
• Estudo das possíveis tecnologias de desenvolvimento
• Proposta de Tese

Plano de Trabalhos - Semestre 2

• Implementação dos protótipos
• Testes e experimentação dos protótipos
• Comparação e avaliação de abordagens
• Elaboração da dissertação
• Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
O trabalho não será remunerado.

Orientador

Paulo Gomes, Hugo Oliveira
pgomes@dei.uc.pt 📩