Propostas Submetidas

DEI - FCTUC
Gerado a 2024-05-01 23:29:11 (Europe/Lisbon).
Voltar

Titulo Estágio

Visualização e interacção com modelos de palavras

Local do Estágio

DEI / CISUC

Enquadramento

Quando não sabemos o significado de uma palavra, recorremos a um dicionário ou procuramos inferi-lo através da sua utilização em textos.
Seguindo estas ideias, há dois principais modelos para a representação computacional das palavras de uma língua e dos seus significados: as redes de palavras e os modelos distribucionais, ambas com inúmeras aplicações ao nível do processamento computacional da língua (e.g. pesquisa de documentos, chatbots).

As redes de palavras são normalmente utilizadas como dicionários. Estão estruturadas em palavras ou grupos de palavras (nós) e relações entre palavras (ligações), tais como: 'cão é-um animal', 'roda parte-de carro', ou 'pá serve-para cavar'.

Os modelos distribucionais representam as palavras através de vetores numéricos que têm por base as ocorrências dessas palavras em grandes quantidades de texto. A representação através de vetores facilita a representação de palavras num espaço, a identificação de palavras próximas e até o cálculo de analogias.

Há diversos modelos deste tipo, com diferentes características e dimensões, e para diferentes línguas. Muitos são disponibilizadas através de meros ficheiros de texto ou bases de dados, sem uma forma melhor de serem exploradas. Para algumas redes, tais como a WordNet de Princeton (http://wordnetweb.princeton.edu/perl/webwn), existem interfaces de pesquisa através da web, fortemente baseados em texto e sem tirar partido de elementos visuais.

Nos último anos, no laboratório CMS do CISUC, têm-se usado e até criado diferentes redes de palavras e também modelos distribucionais, na sua maioria, em português.
Mais uma vez, falamos de vários recursos com palavras cuja exploração fica dificultada devido à falta de interfaces e de elementos visuais para o fazer.

A Visualização de Informação tem como objectivo tirar partido de recursos gráficos para apresentar e facilitar a compreensão de dados.
No contexto descrito anteriormente, a aplicação de técnicas de Visualização de Informação pode permitir uma consulta mais rápida aos recursos e ainda ajudar a tirar conclusões que, de outra forma, não seria possível.

Objetivo

Esta dissertação tem como principal objectivo a exploração de técnicas de Visualização de Informação para facilitar a consulta e interacção com espaços de palavras, incluindo redes e modelos distribucionais. Estas técnicas devem ser inicialmente aplicados a modelos de palavras portuguesas, nomeadamente aqueles criados no CMS, mas não se descarta a aplicação a outros recursos de palavras, com uma estrutura semelhante.

Para a maior parte destes modelos não existe sequer uma interface gráfica, o que limita bastante a exploração de toda a informação que contêm por parte daqueles interessados na sua utilização para os mais variados projetos.
Assim, o objectivo passará também pelo desenvolvimento de uma aplicação web de pesquisa, enriquecida por um conjunto de visualizações.

Uma primeira fase do trabalho consistirá na aplicação de modelos de visualização conhecidos aos modelos alvo. No caso das redes, para além das palavras e suas ligações, as visualizações deverão facilitar a identificação de palavras ou relações com diferentes características (e.g., tipo ou confiança associada), e ainda permitir uma forma amigável de navegar pela rede.
No caso dos modelos distribucionais, as visualizações deverão facilitar a representação de palavras no espaço, que terá provavelmente de ser reduzido para duas dimensões, e a identificação das palavras mais similares relacionadas.

Numa segunda fase, serão estudadas adaptações de alguns parâmetros dos modelos escolhidos, com vista a melhorar a experiência de interacção com os modelos alvo.

Finalmente, numa fase mais avançada, poderão explorar-se formas alternativas e mais criativas de visualizar estes espaços de palavras, cujas vantagens e desvantagens deverão ser analisadas.

Plano de Trabalhos - Semestre 1

- Revisão bibliográfica
- Familiarização com redes e modelos distribucionais
- Análise de interfaces gráficas disponíveis para este tipo de recurso
- Identificação de técnicas de visualização de informação aplicáveis a redes de palavras e a modelos distribucionais
- Primeiras experiências ao nível da aplicação de modelos conhecidos de visualização
- Elaboração da proposta de tese

Plano de Trabalhos - Semestre 2

- Adaptação dos modelos selecionados com vista a melhorar aspetos técnicos e estéticos
- Desenvolvimento da aplicação web
- Exploração de formas alternativas para visualizar espaços de palavras
- Experimentação e análise
- Escrita da dissertação

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores

Orientador

Hugo Oliveira
hroliv@dei.uc.pt 📩