Titulo Estágio
Descoberta de conceitos a partir de redes de palavras
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI/FCTUC
Enquadramento
A Criatividade Computacional é uma subárea emergente da Inteligência Artificial que visa o desenvolvimento de sistemas computacionais com comportamentos que possam ser considerados criativos. O grupo CMS do CISUC está atualmente envolvido vários projetos nesta área.
O ConCreTe é um projeto europeu que procura estudar a criatividade conceptual, e que lida com a representação computacional e com a descoberta de novos conceitos.
Uma forma comum de representar um conceito é através de um conjunto de palavras – pertencentes à mesma categoria (vermelho, amarelo, verde, azul), com algum tipo de associação (vermelho, sangue, coração), ou com o mesmo significado (vermelho, encarnado).
O último caso, é chamado de synset e utilizado em wordnets (http://wordnet.princeton.edu/). Como várias wordnets são criadas manualmente e têm uma cobertura limitada, é frequente descobrir novos conceitos automaticamente em texto, baseando-se na proximidade de palavras, e na semelhança dos seus contextos.
Objetivo
Queremos desenvolver uma abordagem para a descoberta automática de novos conceitos em redes de palavras, extraídas de texto e organizadas de acordo com sentidos e/ou ocorrências. Obtidas de diferentes recursos (dicionários, Wikipédia, notícias, tweets), as redes podem ter configurações distintas e originar conceitos com propriedades e aplicações diferentes. Mas um novo conceito será naturalmente um subgrafo da rede.
Estamos principalmente interessados em:
a) Encontrar synsets: as palavras do subgrafo terão o mesmo significado e poderão enriquecer wordnets
b) Sugerir conceitos coerentes mas inesperados: capazes de surpreender, com aplicação na geração de poesia, metáforas...
Na criação do Onto.PT, uma wordnet desenvolvida no grupo CMS do CISUC, houve já trabalho na descoberta de synsets. Como cada palavra pode ter uma importância diferente num conceito, estes são representados por conjuntos difusos (fuzzy sets), com um grau de pertença associado a cada palavra, que pode ainda indicar a confiança da sua associação. Veja-se: dinheiro (1.0) pecúnia (0.9) maquia (0.8) carcanhol (0.6) pasta (0.3) cacau (0.2).
Pode ser o ponto de partida, mas pretendemos testar novos algoritmos e explorar mais informação das redes. Será depois importante perceber até que ponto a abordagem se adapta à criatividade computacional. Neste âmbito, também no CMS, foi desenvolvido um poeta artificial, o PoeTryMe, onde poderá ser integrada a descoberta de conceitos inesperados, e utilizá-los na geração.
Plano de Trabalhos - Semestre 1
- Estudo do estado da arte sobre extração de informação e descoberta de conceitos
- Familiarização com a algoritmos de graph clustering
- Definição de uma primeira abordagem para descoberta de synsets (prova de conceito)
- Escrita da proposta de dissertação
Plano de Trabalhos - Semestre 2
- Implementação e teste de diferentes soluções para a descoberta de synsets
- Avaliação dos resultados da descoberta de synsets
- Experimentação e adaptação das soluções à sugestão de conceitos inesperados
- Avaliação dos resultados da sugestão de conceitos
- Elaboração da dissertação
- Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte do orientador. O trabalho será integrado no projeto europeu ConCreTe (Concept Creation Technology) e é elegível a remuneração, através de uma bolsa no âmbito deste projeto.
Orientador
Hugo Gonçalo Oliveira
hroliv@dei.uc.pt 📩