Titulo Estágio
Visualização e interacção com espaços de palavras
Local do Estágio
DEI / CISUC
Enquadramento
Quando não sabemos o significado de uma palavra, recorremos a um dicionário ou então procuramos inferi-lo através da sua utilização em textos.
Seguindo estas ideias, há dois principais modelos para a representação computacional das palavras de uma língua e dos seus significados: as redes de palavras e os modelos distribucionais, ambas com inúmeras aplicações ao nível do processamento computacional da língua (e.g. pesquisa de documentos, chatbots).
As redes de palavras são normalmente utilizadas como dicionários. Estão estruturadas em palavras ou grupos de palavras (nós) e relações entre palavras (ligações), tais como: 'cão é-um animal', 'roda parte-de carro', ou 'pá serve-para cavar'.
Os modelos distribucionais representam as palavras através de vetores numéricos que têm por base as ocorrências dessas palavras em grandes quantidades de texto. A representação através de vetores facilita a representação de palavras num espaço, o cálculo da similaridade entre palavras e a identificação de palavras próximas.
Há diversos modelos deste tipo, com diferentes características e dimensões, e para diferentes línguas. Muitos são disponibilizadas através de meros ficheiros de texto ou bases de dados, sem uma forma melhor de serem exploradas. Para algumas redes, tais como a WordNet de Princeton (http://wordnetweb.princeton.edu/perl/webwn), existem interfaces de pesquisa através da web, fortemente baseados em texto e sem tirar partido de elementos visuais.
O Onto.PT (http://ontopt.dei.uc.pt/) foi um projeto desenvolvido no CISUC onde foram recolhidas várias relações entre palavras portuguesas e criada uma rede baseada em grupos de sinónimos. Nos últimos anos, tem-se desenvolvido trabalho relacionado com vista à exploração de diferentes recursos e criação de diferentes redes, com diferentes características, tais como o nível de confiança, e até gerada uma representação vetorial para algumas das redes. Mais uma vez, falamos de vários recursos com palavras, para os quais não existem interfaces que tirem partido de elementos visuais para os explorar.
A Visualização de Informação tem como objectivo tirar partido de recursos gráficos para apresentar e facilitar a compreensão de dados. Tais recursos podem ajudar a tirar conclusões que, de outra forma, não seria possível.
Objetivo
Esta dissertação tem como principal objectivo a exploração de técnicas de Visualização de Informação para facilitar a consulta e interacção com espaços de palavras, incluindo redes e modelos distribucionais. Estas técnicas devem ser primeiramente aplicados a modelos de palavras portuguesas, nomeadamente aqueles criados no âmbito do projeto Onto.PT, mas não se descarta a aplicação a outros recursos de palavras, com uma estrutura semelhante.
Para a maior parte destes modelos não existe sequer uma interface gráfica, o que limita bastante a exploração de toda a informação que contêm por parte daqueles interessados na sua utilização para os mais variados projetos.
Assim, o objectivo passará também pelo desenvolvimento de uma aplicação web de pesquisa, enriquecida por um conjunto de visualizações, a integrar no site do projeto Onto.PT.
Uma primeira fase do trabalho consistirá na aplicação de modelos de visualização conhecidos aos modelos alvo. No caso das redes, para além das palavras e suas ligações, as visualizações deverão faciitar a identificação de palavras ou relações com diferentes características (e.g., tipo ou confiança associada), e ainda permitir uma forma amigável de navegar pela rede.
No caso dos modelos distribucionais, as visualizações deverão facilitar a representação de palavras no espaço, que terá provavelmente de ser reduzido para duas dimensões, e a identificação das palavras mais similares relacionadas.
Numa segunda fase, serão estudadas adaptações de alguns parâmetros dos modelos escolhidos, com vista a melhorar a experiência de interacção com os modelos alvo.
Finalmente, numa fase mais avançada, poderão explorar-se formas alternativas e mais criativas de visualizar estes espaços de palavras, cujas vantagens e desvantagens deverão ser analisadas.
Plano de Trabalhos - Semestre 1
- Revisão bibliográfica
- Familiarização com redes e modelos distribucionais
- Análise de interfaces gráficas disponíveis para este tipo de recurso
- Identificação de técnicas de visualização de informação aplicáveis a redes de palavras e a modelos distribucionais
- Primeiras experiências ao nível da aplicação de modelos conhecidos de visualização
- Elaboração da proposta de tese
Plano de Trabalhos - Semestre 2
- Adaptação dos modelos selecionados com vista a melhorar aspetos técnicos e estéticos
- Desenvolvimento da aplicação web
- Exploração de formas alternativas para visualizar espaços de palavras
- Experimentação e análise
- Escrita da dissertação
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
Observações
Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com o orientador, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião presencial, a marcar após um contacto por e-mail.
Orientador
Hugo Gonçalo Oliveira e Evgheni Polisciuc
hroliv@dei.uc.pt 📩