Titulo Estágio
Desambiguação automática do sentido das palavras em português
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI/FCTUC
Enquadramento
A linguagem natural é ambígua. Diferentes palavras podem referir-se ao mesmo conceito (carro e automóvel) e a mesma palavra a conceitos diferentes (banco: instituição/assento). A desambiguação automática do sentido das palavras procura associar a ocorrência de palavras a representações não ambíguas do conceito que transmitem. Para tal, explora o contexto em que palavra está inserida e o conhecimento em recursos externos, como ontologias.
Wordnets (http://wordnet.princeton.edu/) são bases de conhecimento sobre a língua, estruturadas em: (a) synsets, grupos de sinónimos que representam conceitos (achar, encontrar); (b) relações entre synsets (animal hiperónimo-de cão, roda parte-de carro). Este modelo foi adaptado a várias línguas, incluindo o português, para a qual há várias wordnets, construídas de forma diferente. Uma delas, a Onto.PT (http://ontopt.dei.uc.pt), é desenvolvida no grupo CMS do CISUC e tem a particularidade de ser criado automaticamente, a partir de recursos textuais.
Objetivo
Apesar de existirem várias wordnets para o português, aquelas cuja utilização é livre são recentes e têm várias limitações. Por isso, ao contrario do inglês, a desambiguação do sentido das palavras é ainda um tema pouco explorado para o português.
Com esta dissertação pretende-se desenvolver um trabalho pioneiro em torno da desambiguação do sentido das palavras em português. Isso poderá incluir a adaptação de algoritmos de desambiguação já existentes ou o desenvolvimento de novas soluções. Para o inglês, esses algoritmos exploram normalmente a estrutura da wordnet para encontrar semelhanças das palavras em contexto com os synsets, criando uma correspondência entre ambos. Por exemplo, na frase:
Sentei-me num banco para descansar.
seria adequado associar “banco” ao synset {banco, assento} e não ao synset {banco, instituição financeira}.
A aplicação dos algoritmos definidos a diferentes wordnets do português poderá ainda ser importante para comparar a sua qualidade e adequação à tarefa.
Este trabalho terá uma forte componente experimental, que inclui a definição dos testes a realizar e das medidas a aplicar. Poderá passar pela construção de uma referência onde palavras em contexto já se encontrem desambiguadas, e no qual haja alguma confiança, por exemplo, por ter sido criado/revisto manualmente.
Se a referência desenvolvida for suficientemente flexível, poderá vir a ser utilizado por outros investigadores, aumentando assim o impacto deste trabalho.
Plano de Trabalhos - Semestre 1
- Estudo do estado da arte relativamente a desambiguação do sentido das palavras
- Estudo do estado da arte relativamente a wordnets do português
- Definição do conjunto de testes e medidas de avaliação
- Especificação de um protótipo
- Elaboração da proposta de dissertação
Plano de Trabalhos - Semestre 2
- Implementação do protótipo
- Implementação de soluções alternativas
- Avaliação das soluções e de diferentes bases de conhecimento
- Elaboração da dissertação
- Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
O trabalho não será remunerado.
Orientador
Hugo Gonçalo Oliveira e Ana Oliveira Alves
hroliv@dei.uc.pt 📩