Propostas Submetidas - sem aluno

DEI - FCTUC
Gerado a 2024-04-23 11:14:20 (Europe/Lisbon).
Voltar

Titulo Estágio

Desambiguação automática do sentido das palavras em português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI-FCTUC

Enquadramento

A linguagem natural é ambígua. Diferentes palavras podem referir-se ao mesmo conceito (carro e automóvel) e a mesma palavra a conceitos diferentes (banco: instituição/assento). A desambiguação automática do sentido das palavras procura associar a ocorrência de palavras a representações não ambíguas do conceito que transmitem. Para tal, explora o contexto em que a palavra está inserida e conhecimento em recursos externos, como ontologias.

Wordnets são bases de conhecimento sobre a língua, estruturadas em: (i) synsets, grupos de sinónimos que representam conceitos (achar, encontrar); (ii) relações entre synsets (animal hiperónimo-de cão, roda parte-de carro). O seu modelo foi adaptado a várias línguas, incluindo o português, para a qual há várias wordnets, construídas de forma diferente. Uma delas, a Onto.PT (http://ontopt.dei.uc.pt), é desenvolvida no grupo CMS do CISUC e tem a particularidade de ser criada automaticamente, a partir de recursos textuais.

Objetivo

Apesar de existirem várias wordnets para o português, aquelas com utilização livre são recentes e têm limitações. Por isso, ao contrário do inglês, a desambiguação do sentido das palavras é ainda um tema pouco explorado para o português.

Com esta dissertação pretende-se desenvolver um trabalho pioneiro em torno da desambiguação do sentido das palavras em português. Isto poderá incluir a adaptação de algoritmos de desambiguação já existentes ou o desenvolvimento de novas soluções. Para o inglês, esses algoritmos exploram normalmente a estrutura de uma wordnet para encontrar semelhanças das palavras em contexto com os synsets, criando uma correspondência entre ambos. Por exemplo, na frase:

Sentei-me num banco para descansar.

seria adequado associar “banco” ao synset {banco, assento} e não ao synset {banco, instituição financeira}.

A aplicação dos algoritmos a diferentes wordnets do português poderá ainda ser importante para comparar qualidade e adequação desses recursos à tarefa.

Este trabalho terá uma forte componente experimental, que inclui não só a seleção dos algoritmos e medidas a aplicar, e que deverá passar pela criação de uma referência onde palavras em contexto já se encontrem desambiguadas, e no qual haja alguma confiança, por ter sido criado/revisto manualmente, idealmente por vários voluntários..
Se a referência desenvolvida for suficientemente flexível, poderá vir a ser utilizada por outros investigadores, aumentando assim o impacto deste trabalho.

Plano de Trabalhos - Semestre 1

- Estudo do estado da arte relativamente a desambiguação do sentido das palavras
- Estudo do estado da arte relativamente a wordnets do português
- Criação do corpo de referência e definição das medidas de avaliação
- Especificação de um protótipo
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Implementação de um primeiro protótipo
- Implementação de soluções alternativas
- Avaliação das diferentes soluções em diferentes bases de conhecimento
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.

Orientador

Hugo Gonçalo Oliveira e Ana Oliveira Alves
hroliv@dei.uc.pt 📩