Propostas sem aluno atribuído - Setembro de 2014

DEI - FCTUC
Gerado a 2024-04-16 18:46:57 (Europe/Lisbon).
Voltar

Titulo Estágio

Desambiguação automática do sentido das palavras em português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI/FCTUC

Enquadramento

A linguagem natural é ambígua. Diferentes palavras podem referir-se ao mesmo conceito (carro e automóvel) e a mesma palavra a conceitos diferentes (banco: instituição/assento). A desambiguação automática do sentido das palavras procura associar a ocorrência de palavras a representações não ambíguas do conceito que transmitem. Para tal, explora o contexto em que palavra está inserida e o conhecimento em recursos externos, como ontologias.

Wordnets (http://wordnet.princeton.edu/) são bases de conhecimento sobre a língua, estruturadas em: (a) synsets, grupos de sinónimos que representam conceitos (achar, encontrar); (b) relações entre synsets (animal hiperónimo-de cão, roda parte-de carro). Este modelo foi adaptado a várias línguas, incluindo o português, para a qual há várias wordnets, construídas de forma diferente. Uma delas, a Onto.PT (http://ontopt.dei.uc.pt), é desenvolvida no grupo CMS do CISUC e tem a particularidade de ser criado automaticamente, a partir de recursos textuais.

Objetivo

Apesar de existirem várias wordnets para o português, aquelas cuja utilização é livre são recentes e têm várias limitações. Por isso, ao contrario do inglês, a desambiguação do sentido das palavras é ainda um tema pouco explorado para o português.

Com esta dissertação pretende-se desenvolver um trabalho pioneiro em torno da desambiguação do sentido das palavras em português. Isso poderá incluir a adaptação de algoritmos de desambiguação já existentes ou o desenvolvimento de novas soluções. Para o inglês, esses algoritmos exploram normalmente a estrutura da wordnet para encontrar semelhanças das palavras em contexto com os synsets, criando uma correspondência entre ambos. Por exemplo, na frase:

Sentei-me num banco para descansar.

seria adequado associar “banco” ao synset {banco, assento} e não ao synset {banco, instituição financeira}.

A aplicação dos algoritmos definidos a diferentes wordnets do português poderá ainda ser importante para comparar a sua qualidade e adequação à tarefa.

Este trabalho terá uma forte componente experimental, que inclui a definição dos testes a realizar e das medidas a aplicar. Poderá passar pela construção de uma referência onde palavras em contexto já se encontrem desambiguadas, e no qual haja alguma confiança, por exemplo, por ter sido criado/revisto manualmente.
Se a referência desenvolvida for suficientemente flexível, poderá vir a ser utilizado por outros investigadores, aumentando assim o impacto deste trabalho.

Plano de Trabalhos - Semestre 1

- Estudo do estado da arte relativamente a desambiguação do sentido das palavras
- Estudo do estado da arte relativamente a wordnets do português
- Definição do conjunto de testes e medidas de avaliação
- Especificação de um protótipo
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Implementação do protótipo
- Implementação de soluções alternativas
- Avaliação das soluções e de diferentes bases de conhecimento
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
O trabalho não será remunerado.

Orientador

Hugo Gonçalo Oliveira e Ana Oliveira Alves
hroliv@dei.uc.pt 📩