Titulo Estágio
Desambiguação automática do sentido das palavras em português
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI-FCTUC
Enquadramento
A linguagem natural é ambígua. Diferentes palavras podem referir-se ao mesmo conceito (carro e automóvel) e a mesma palavra a conceitos diferentes (banco: instituição/assento). A desambiguação automática do sentido das palavras procura associar a ocorrência de palavras a representações não ambíguas do conceito que transmitem. Para tal, explora o contexto em que a palavra está inserida e conhecimento em recursos externos, como ontologias.
Wordnets são bases de conhecimento sobre a língua, estruturadas em: (i) synsets, grupos de sinónimos que representam conceitos (achar, encontrar); (ii) relações entre synsets (animal hiperónimo-de cão, roda parte-de carro). O seu modelo foi adaptado a várias línguas, incluindo o português, para a qual há várias wordnets, construídas de forma diferente. Uma delas, a Onto.PT (http://ontopt.dei.uc.pt), FOI desenvolvida no grupo CMS do CISUC e tem a particularidade de ser criada automaticamente, a partir de recursos textuais.
Objetivo
Apesar de existirem várias wordnets para o português, nem todas são de utilização livre e outras são recentes e têm limitações. Por isso, ao contrário do inglês, a desambiguação do sentido das palavras é ainda um tema pouco explorado para o português.
Com esta dissertação pretende-se desenvolver um trabalho pioneiro em torno da desambiguação do sentido das palavras em português. Isto poderá incluir a adaptação de algoritmos de desambiguação já existentes ou o desenvolvimento de novas soluções. Para o inglês, esses algoritmos exploram normalmente a estrutura de uma wordnet para encontrar semelhanças das palavras em contexto com os synsets, criando uma correspondência entre ambos. Por exemplo, na frase:
Sentei-me num banco para descansar.
seria adequado associar "banco" ao synset {banco, assento} e não ao synset {banco, instituição financeira}.
A aplicação dos algoritmos a diferentes wordnets do português poderá ainda ser importante para comparar qualidade e adequação desses recursos à tarefa.
Este trabalho terá uma forte componente experimental, que inclui não só a seleção dos algoritmos e medidas a aplicar, mas que deverá passar pela criação de uma referência onde palavras em contexto já se encontrem desambiguadas, com alguma confiança, por ter sido criado/revisto manualmente, idealmente por vários voluntários.
Se a referência desenvolvida for suficientemente flexível, poderá vir a ser utilizada por outros investigadores, aumentando assim o impacto deste trabalho.
Plano de Trabalhos - Semestre 1
- Estudo do estado da arte relativamente a desambiguação do sentido das palavras
- Estudo do estado da arte relativamente a wordnets do português
- Início da criação do corpo de referência e definição das medidas de avaliação
- Especificação de um protótipo
- Elaboração da proposta de dissertação
Plano de Trabalhos - Semestre 2
- Implementação de um primeiro protótipo
- Implementação de soluções alternativas
- Avaliação das diferentes soluções em diferentes bases de conhecimento
- Elaboração da dissertação
- Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
Orientador
Hugo Gonçalo Oliveira e Ana Oliveira Alves
hroliv@dei.uc.pt 📩