Titulo Estágio
Reconhecimento Automático de Humor Verbal
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI/CISUC
Enquadramento
Há cada vez mais sistemas inteligentes que interagem com os humanos através da linguagem humana (vulgo, chatbots), e que a precisam de compreender o melhor possível.
Apesar de utilizada no dia-a-dia para a comunicação entre humanos, a Linguagem Natural (LN) é rica em fenómenos que dificultam o seu processamento e interpretação por programas de computador. Destaca-se a ambiguidade – a mesma palavra pode ser usada para referir dois conceitos diferentes (e.g. banco: instituição/assento) – e a homonímia – o mesmo conceito pode ser referido através de palavras diferentes (e.g. carro e automóvel). Isto para além de diferentes registos de linguagem (e.g. formal e informal), figuras de estilo (e.g. metáfora, ironia), ou de terminologia específica de determinados domínios, entre outros.
Compreender melhor a LN passa também pelo reconhecimento automático de humor, uma característica humana que, através de uma incongruência, promove o riso e liberta tensão.
Aliás, reconhecer humor em determinada língua é mesmo considerado um sinal de fluência nessa língua. Ao identificar uma interação mais humorística, um sistema automático pode alterar as acções a tomar, desvalorizando a interação, ou até procurando responder num nível semelhante.
A investigação no reconhecimento automático de humor pode ser vista como uma sub-tarefa do Processamento de Linguagem Natural (PLN) e tem-se focado em tipos específicos de humor, expresso verbalmente e em contextos limitados (frases, tweets). É normalmente abordada como um problema de classificação de texto que se baseia na presença de um conjunto de características como a utilização de antónimos, palavras com vários sentidos, expressões idiomáticas ou calão.
No entanto, a maior parte dos trabalhos nesta área foi desenvolvido para o inglês. Apesar de trabalhos relacionados, como o reconhecimento de ironia e emoções, desconhece-se trabalho focado no reconhecimento de humor em texto escrito em português.
Objetivo
Nesta dissertação pretende-se desenvolver um modelo computacional para o reconhecimento automático de humor escrito em português.
Será necessário, por um lado, recorrer a um conjunto de ferramentas capazes de extrair as características relevantes para o reconhecimento de humor e, por outro, recolher um conjunto de textos humorísticos e não humorísticos que possam ser utilizados para testar várias versões do modelo e medir os progressos alcançados.
Prevê-se a utilização de: (a) um conjunto de ferramentas necessárias para o processamento básico da língua portuguesa (separação de um texto em palavras, identificação de categorias gramaticais, ...), actualmente disponíveis e, na sua maioria, com alternativas desenvolvidas no grupo CMS do CISUC; (b) um conjunto de léxicos computacionais, também disponíveis livremente, que possam ser utilizados para identificar diferentes sentidos de uma palavra, se uma palavra pode ser utilizada como calão, ou que sentimento / emoção uma palavra normalmente transmite.
Por sua vez, a recolha de textos humorísticos para treino e testes poderá recorrer a coleções de anedotas e piadas na Web, ou a mensagens da rede Twitter com determinadas hashtags (e.g. #piada), entre outros.
Numa primeira fase, um modelo de reconhecimento de humor poderá basear-se em regras sobre as características extraídas. Numa fase mais adiantada, poderão explorar-se técnicas de aprendizagem computacional (Machine Learning) supervisionada, recorrendo para isso a uma plataforma própria que já inclua os algoritmos mais famosos (e.g. Weka ou scikit-learn).
Nessa fase, será importante tirar conclusões acerca das características mais relevantes no reconhecimento de humor em português.
Para além do impacto esperado, por se tratar de um trabalho pioneiro para o português, os resultados alcançados poderão ser úteis para diferentes projetos a decorrer no CISUC, mais especificamente no desenvolvimento de chatbots, na geração automática de humor, e na monitorização do estado de espírito dos utilizadores de redes sociais.
Plano de Trabalhos - Semestre 1
- Estudo do estado da arte relativamente ao processamento computacional da língua e à classificação automática de texto, com foco no humor
- Recolha de textos para o conjunto de testes
- Especificação de um modelo de reconhecimento de humor e identificação das características a explorar no texto
- Elaboração da proposta de dissertação
Plano de Trabalhos - Semestre 2
- Implementação do protótipo, incluindo a extração de características
- Experimentação e avaliação do protótipo
- Elaboração da dissertação
- Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
O resultado deste trabalho pode vir a ser utilizado como um sensor humano no projeto SOCIALITE, a decorrer no CISUC e financiado pela FCT, onde se monitoriza o estado de espírito de utilizadores. Nesse contexto, haverá a possibilidade de ser financiado através de uma bolsa de investigação.
Observações
Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com o orientador, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião presencial, a marcar após um contacto por e-mail.
Orientador
Hugo Gonçalo Oliveira e Ana Alves
hroliv@dei.uc.pt 📩