Titulo Estágio
OntoPT: construção de um WordNet para o Português a partir de Documentos
Área Tecnológica
Processamento de Linguagem Natural
Local do Estágio
DEI
Enquadramento
O projecto Onto.PT é um projecto iniciado em finais de 2008 e que está a ser desenvolvido no laboratório Knowledge and Intelligent Systems do grupo CMS do CISUC.
O principal objectivo deste projecto é a elaboração ferramentas que consigam, de forma (semi) automática, extrair relações entre conceitos a partir de textos escritos em português. As relações extraídas serão depois tratadas de forma a ser incluídas numa ontologia lexical, ao estilo do WordNet, mas para a língua portuguesa.
Uma estrutura como o WordNet é basicamente uma representação formal do significado de uma linguagem e que pode ser vista como uma ontologia. Os conceitos, representados textualmente através de palavras, podem relacionar-se de várias formas com outros conceitos, sendo que as relações mais estudadas são a hiperonímia ou is-a (um conceito é uma subclasse de outro) e a meronímia ou part-of (um conceito é parte de outro).
A construção manual de uma ontologia é normalmente muito trabalhosa e por isso pretende-se que o Onto.PT seja construído de forma (semi) automática, através da extracção de relações a partir de recursos textuais que tivermos ao nosso dispôr, desde simples definições em dicionários até texto de blogs ou jornais que se podem encontrar na Web.
Objetivo
O objectivo desta dissertação é o desenvolvimento de ferramentas que consigam extrair e estruturar de forma automática informação, mais propriamente conceitos e relações entre eles, a partir de texto escrito em português. Tendo em conta a infinidade de relações que podem ocorrer, a dissertação deverá focar-se na extracção apenas de um conjunto restrito de relações que se verifique serem importantes para a compreensão dos textos.
As ferramentas deverão identificar padrões textuais que indiquem a presença das relações, extrair essas relações e por fim estruturá-las de forma a facilitar a sua incorporação numa ontologia. Uma hipótese é a adaptação das ferramentas utilizadas para a extracção de relações a partir de definições de um dicionário, utilizadas no projecto PAPEL [1], baseadas num conjunto de gramáticas. No entanto não se descartam outras possibilidades, tendo em conta que o texto que se pretende processar não estará tão estruturado com o texto de um dicionário.
As ferramentas poderão ser úteis para analisar conjuntos de documentos e organizar o conhecimento neles contido numa ontologia de um domínio específico. Hoje em dia as grandes empresas lidam com uma quantidade enorme de documentos e o acesso aos mesmos através do conhecimento neles contido é vital. As relações obtidas poderão vir também a ser inseridas no Onto.PT.
O crescimento das aplicações baseadas na Semantic Web criou a necessidade de utilização de ontologias, que são contudo escassas para o Português. Se para o inglês existem vários trabalhos relacionados com a extracção automática da relação de hiperonímia [2] ou com a estruturação de conhecimento [3] em recursos textuais, para o português existem pouco mais que algumas ideias e experiências [4].
Plano de Trabalhos - Semestre 1
Revisão bibliográfica
Estudo da estrutura do Onto.PT e possíveis tecnologias de desenvolvimento
Análise e especificação do protótipo
Plano de Trabalhos - Semestre 2
Implementação do protótipo
Testes e experimentação do protótipo
Elaboração da dissertação
Escrita de artigos científicos
Condições
O estágio não é remunerado, havendo no entanto a possibilidade de uma bolsa da FCT.
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC.
Referências
[1] H. Gonçalo Oliveira, P. Gomes, and D. Santos (2008). PAPEL: a dictionary-based lexical ontology for Portuguese. In A. Teixeira, V. L. S. de Lima, L. C. de Oliveira, and P. Quaresma, editors, Proceedings of Computational Processing of the Portuguese Language, 8th International Conference (PROPOR 2008)
[2] Hearst, M. A. (1992). Automatic acquisition of hyponyms from large text corpora. In Proceedings of the 14th conference on Computational linguistics, Morristown, NJ, USA. Association for Computational Linguistics.
[3] S. Soderland and B. Mandhani (2007). Moving from textual relations to ontologized relations. n Proceedings of the AAAI Spring Symposium on Machine Reading
[4] Freitas, C. and Quental, V. (2007). Subsídios para a elaboração automática de taxonomias. In XXVII Congresso da SBC - V Workshop em Tecnologia da Informação e da Linguagem Humana (TIL)
Orientador
Paulo Jorge de Sousa Gomes
pgomes@dei.uc.pt 📩