Titulo Estágio
Visualização de redes semânticas e ontologias lexicais
Local do Estágio
DEI-FCTUC
Enquadramento
No âmbito do processamento computacional da língua, uma forma de adquirir conhecimento sobre documentos escritos passa pela extração automática de informação. Aí, é comum extraírem-se triplos, em que dois conceitos, representados por palavras, se relacionam de acordo com o seu sentido, como em: animal é-um cão; roda parte-de carro.
Outras vezes, a relação é uma mera co-ocorrência, como em: finanças – crise; ténis - rede.
Vendo as palavras como nós e as relações como arcos, a informação extraída constitui uma rede semântica, uma das formas mais comuns para representar conhecimento.
A análise destas redes pode levar a conclusões importantes sobre o sentido e semelhanças entre palavras, o que pode ser alcançado através da aplicação de vários algoritmos matemáticos. No entanto, a melhor forma de ganhar sensibilidade acerca da organização da rede, de tirar um primeiro conjunto de conclusões, e só a partir daí pensar nos algoritmos a aplicar passa por uma visualização da rede.
Objetivo
Redes semânticas extraídas de texto podem ter grandes dimensões, para cima da centenas de milhar de nós, e ter complexidade adicional por cobrirem vários tipos de nós e relações. Nestes casos, é difícil conseguir visualizar a rede por completo e é necessário encontrar a melhor estratégia para permitir uma navegação útil, que possa ajudar a compreender a organização da rede.
O objetivo desta dissertação passa pelo desenvolvimento de uma aplicação flexível para visualização de redes semânticas, que deverá fornecer uma forma amigável de adquirir as primeiras impressões sobre uma rede, permitir a análise de sub-redes e de recolha de exemplos específicos. Deverá ainda adaptar-se à visualização de diferentes tipos de redes, obtidas a partir de diferentes fontes, mais ou menos densas, onde seja possível distinguir e filtrar por diferentes tipos de nós (pe. nomes, verbos) e de relações, e onde seja fácil a identificação visual de clusters.
Entre outras redes que possam ser criadas, pretende-se utilizar esta aplicação para visualizar redes desenvolvidas no grupo CMS, do CISUC, como o CARTÃO, rede de palavras extraída de dicionários, ou o Onto.PT (ver http://ontopt.dei.uc.pt/), ontologia lexical. Existem aplicações para consultar ambas, mas com a funcionalidade de visualização inexistente (OntoBusca, para o Onto.PT) ou muito limitadas (http://www.linguateca.pt/Folheador/).
A aplicação deve poder utilizar-se em qualquer tipo de sistema, e por isso será, idealmente, web-based.
Plano de Trabalhos - Semestre 1
• Familiarização com o conceito de rede semântica e ontologia lexical
• Levantamento de ideias e soluções já existentes para visualização de redes semânticas
• Definição dos requisitos funcionais da aplicação a desenvolver
• Prototipagem da interface (mockups)
• Definição de um conjunto de testes de usabilidade
• Elaboração da proposta de dissertação
Plano de Trabalhos - Semestre 2
• Implementação de um primeiro protótipo funcional, para prova de conceito
• Evolução contínua do protótipo e utilização com diferentes redes
• Avaliação funcional e de usabilidade
• Escrita da dissertação de mestrado e eventual artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC.
A escolha do candidato será feita com base no seu CV e eventual entrevista
Competências
Conhecimentos de programação para a Web e de visualização de informação
Observações
N/A
Orientador
Hugo Gonçalo Oliveira
hroliv@dei.uc.pt 📩