Propostas Submetidas MEI 2014/2015

DEI - FCTUC
Gerado a 2024-11-21 19:48:32 (Europe/Lisbon).
Voltar

Titulo Estágio

Criação automática de uma wordnet com medidas de confiança associadas

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI/FCTUC

Enquadramento

Wordnets (http://wordnet.princeton.edu/) são ontologias sobre as palavras de uma língua, estruturadas em: (i) synsets, grupos de sinónimos que representam conceitos (pe. {carro, automóvel} ou {escrever, lavrar, redigir}); (ii) relações entre synsets, como hiperonímia (pe. animal hiperónimo-de cão) ou parte-de (pe. roda parte-de carro).

O Onto.PT (http://ontopt.dei.uc.pt/) é um recurso desenvolvido no CISUC com uma estrutura de wordnet, mas construído automaticamente para a língua portuguesa, a partir de dicionários e tesauros electrónicos. É livre e encontra-se disponível num formato RDFs, uma linguagem utilizada para representar ontologias, utilizada normalmente no contexto da Web Semântica.

Um ponto forte do Onto.PT é a sua dimensão, substancialmente superior a recursos semelhantes para o português, o que é conseguido através da exploração de recursos textuais já existentes. No entanto, por ser criado de forma automática, a sua fiabilidade é tendencialmente inferior.

Objetivo

Nesta dissertação, pretende-se encontrar uma forma de incorporar métricas de confiança nos conteúdos do Onto.PT. Estas métricas tornarão possível uma utilização bastante diferente do recurso e idealmente aumentar a sua usabilidade. Por exemplo, os utilizadores passarão a poder definir que conteúdos do Onto.PT pretendem utilizar, considerando os seus objectivos, pesando as suas necessidades de cobertura e a sua tolerância a erros.

Um ponto de partida, será estudar de que forma se poderá tirar partido da redundância presente nos vários recursos utilizados na criação do Onto.PT, onde se incluem o Dicionário Aberto (http://www.dicionario-aberto.net/), o Wikcionário (pt.wiktionary.org) ou o TeP (http://www.nilc.icmc.usp.br/tep2/), e possivelmente de outros (pe. Wikipédia), para atribuir maior confiança a conteúdos que estão presentes em mais recursos. Este trabalho poderá ser combinado com a consideração das métricas de semelhança já utilizadas na construção do Onto.PT, quer na descoberta de synsets, quer na associação de palavras a synsets.

Para além da forma de calcular as métricas de confiança e a sua integração no Onto.PT, outro desafio deste trabalho passam pela a representação desta nova informação e a sua disponibilização, tendo em conta o formato actual do recurso. Na definição do novo modelo, deverá ser considerada a facilidade de utilização.

Plano de Trabalhos - Semestre 1

- Revisão bibliográfica sobre wordnets
- Estudo da estrutura do Onto.PT e sua representação actual
- Estudo de métricas de confiança aplicados ao processamento de linguagem natural
- Proposta de um modelo de cálculo de métricas de confiança
- Definição de uma representação para o recurso com métricas de confiança
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Implementação do modelo
- Testes e experimentação
- Avaliação direta e indireta do (novo) recurso
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte do orientador.
O trabalho não será remunerado.

Orientador

Hugo Gonçalo Oliveira
hroliv@dei.uc.pt 📩