Titulo Estágio
Geração automática de humor
Áreas de especialidade
Sistemas Inteligentes
Sistemas Inteligentes
Local do Estágio
DEI-FCTUC
Enquadramento
A Criatividade Computacional é uma subárea emergente da Inteligência Artificial que visa o desenvolvimento de sistemas computacionais com comportamentos que possam ser considerados criativos.
Destacam-se sistemas capazes de compor música, gerar arte visual, escrever poesia ou humor. Na última década, o grupo CMS do CISUC tem sido activo na área e está actualmente envolvido em dois projectos Europeus, o PROSECCO e o ConCreTe.
A geração automática de humor tem sido explorada por autores que se focaram em vários tipos de piada, tais como one-liners, knock-knock, that’s what she said, reescrita de acrónimos, ou trocadilhos pergunta-resposta, como: What do you call a murderer that has fibre? A cereal killer. Todos estes trabalhos foram feitos para o inglês.
Para português, um trabalho pioneiro é desenvolvido desde 2015, precisamente no CISUC. Uma das primeiras aproximações ao tema resultou num bot no Twitter, capaz de gerar memes com base em notícias recentes (ver @memegera).
Objetivo
Nesta dissertação pretende-se trabalhar na geração de alguns tipos de humor em português. O trabalho deverá culminar na implementação de um protótipo capaz de produzir, automaticamente, texto com propriedades humorísticas, de preferência com algum grau de novidade e capacidade de surpreender os utilizadores.
Algumas das técnicas a aplicar passarão pela identificação automática ou semi-automática de padrões em trocadilhos conhecidos, tais como os seguintes:
O que acontece quando dois bandidos caem ao mar?
Há uma onda de crimes.
Porquê que a vaca foi para o espaço?
Para se encontrar com o vácuo.
Que tipo de medicamento toma um ananás quando está com dores?
Um ananalgésico.
No primeiro caso, tira-se partido da ambiguidade da palavra ‘onda’, da sua relação com ‘mar’ e da sua utilização na expressão ‘onda de crimes’, por sua vez relacionada com ‘bandidos’. No segundo caso, a semântica é combinada com a proximidade fonética entre ‘vaca’ e ‘vácuo’. No terceiro caso, há uma sequência de letras comum entre as palavras “ananás” e “analgésico” para se construir uma terceira “ananalgésico”.
Conhecimento acerca das relações entre palavras e dos seus possíveis significados encontra-se normalmente em bases de conhecimento lexical. Nos últimos anos, alguns desses recursos foram também desenvolvidas no grupo CMS (CARTÃO, Onto.PT), e poderão ser exploradas para a realização deste trabalho.
Plano de Trabalhos - Semestre 1
- Estudo do estado da arte relativamente a humor computacional
- Levantamento de técnicas adaptáveis à geração de trocadilhos humorísticos
- Especificação de um modelo de humor a gerar
- Elaboração da proposta de dissertação
Plano de Trabalhos - Semestre 2
- Implementação do protótipo
- Experimentação e avaliação do protótipo
- Elaboração da dissertação
- Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
Orientador
Hugo Gonçalo Oliveira e Alexandre Pinto
hroliv@dei.uc.pt 📩