Propostas sem aluno atribuído

DEI - FCTUC
Gerado a 2024-11-22 04:24:23 (Europe/Lisbon).
Voltar

Titulo Estágio

Desambiguação automática do sentido das palavras em português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI-FCTUC

Enquadramento

A linguagem natural é ambígua. Diferentes palavras podem referir-se ao mesmo conceito (carro e automóvel) e a mesma palavra a conceitos diferentes (banco: instituição/assento). A desambiguação automática do sentido das palavras procura associar a ocorrência de palavras a representações não ambíguas do conceito que transmitem. Para tal, explora o contexto em que palavra está inserida e conhecimento em recursos externos, como ontologias.

Wordnets (http://wordnet.princeton.edu/) são bases de conhecimento sobre a língua, estruturadas em: (i) synsets, grupos de sinónimos que representam conceitos (achar, encontrar); (ii) relações entre synsets (animal hiperónimo-de cão, roda parte-de carro). O seu modelo foi adaptado a várias línguas, incluindo o português, para a qual há várias wordnets, construídas de forma diferente. Uma delas, a Onto.PT (http://ontopt.dei.uc.pt), é desenvolvida no grupo CMS do CISUC e tem a particularidade de ser criado automaticamente, a partir de recursos textuais.

Objetivo

Apesar de existirem várias wordnets para o português, aquelas cuja utilização é livre são recentes e têm várias limitações. Por isso, ao contrario do inglês, a desambiguação do sentido das palavras é ainda um tema pouco explorado para o português.

Com esta dissertação pretende-se desenvolver um trabalho pioneiro em torno da desambiguação do sentido das palavras em português. Isso poderá incluir a adaptação de algoritmos de desambiguação já existentes ou o desenvolvimento de novas soluções. Para o inglês, esses algoritmos exploram normalmente a estrutura da wordnet para encontrar semelhanças das palavras em contexto com os synsets, criando uma correspondência entre ambos. Por exemplo, na frase:

Sentei-me num banco para descansar.

seria adequado associar “banco” ao synset {banco, assento} e não ao synset {banco, instituição financeira}.

A aplicação dos algoritmos a diferentes wordnets do português poderá ainda ser importante para comparar qualidade e adequação desses recursos à tarefa.

Este trabalho terá uma forte componente experimental, que inclui a definição dos testes a realizar e das medidas a aplicar. Poderá passar pela construção de uma referência onde palavras em contexto já se encontrem desambiguadas, e no qual haja alguma confiança, por exemplo, por ter sido criado/revisto manualmente.
Se a referência desenvolvida for suficientemente flexível, poderá vir a ser utilizada por outros investigadores, aumentando assim o impacto deste trabalho.

Plano de Trabalhos - Semestre 1

• Estudo do estado da arte relativamente a desambiguação do sentido das palavras
• Estudo do estado da arte relativamente a wordnets do português
• Definição do conjunto de testes e medidas de avaliação
• Especificação de um protótipo
• Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

• Implementação do protótipo
• Implementação de soluções alternativas
• Avaliação das soluções e de diferentes bases de conhecimento
• Elaboração da dissertação
• Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
A remuneração do trabalho, através de uma bolsa de licenciado, está dependente da aprovação de um projecto proposto à FCT.

Orientador

Hugo Gonçalo Oliveira e Ana Oliveira Alves
hroliv@dei.uc.pt 📩