Propostas Atribuidas

DEI - FCTUC
Gerado a 2024-11-21 20:22:33 (Europe/Lisbon).
Voltar

Titulo Estágio

Reconhecimento Automático de Humor Verbal

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI/CISUC

Enquadramento

Há cada vez mais sistemas inteligentes que interagem com os humanos através da linguagem humana (vulgo, chatbots), e que a precisam de compreender o melhor possível.
Apesar de utilizada no dia-a-dia para a comunicação entre humanos, a Linguagem Natural (LN) é rica em fenómenos que dificultam o seu processamento e interpretação por programas de computador. Destaca-se a ambiguidade – a mesma palavra pode ser usada para referir dois conceitos diferentes (e.g. banco: instituição/assento) – e a homonímia – o mesmo conceito pode ser referido através de palavras diferentes (e.g. carro e automóvel). Isto para além de diferentes registos de linguagem (e.g. formal e informal), figuras de estilo (e.g. metáfora, ironia), ou de terminologia específica de determinados domínios, entre outros.

Compreender melhor a LN passa também pelo reconhecimento automático de humor, uma característica humana que, através de uma incongruência, promove o riso e liberta tensão.
Aliás, reconhecer humor em determinada língua é mesmo considerado um sinal de fluência nessa língua. Ao identificar uma interação mais humorística, um sistema automático pode alterar as acções a tomar, desvalorizando a interação, ou até procurando responder num nível semelhante.

A investigação no reconhecimento automático de humor pode ser vista como uma sub-tarefa do Processamento de Linguagem Natural (PLN) e tem-se focado em tipos específicos de humor, expresso verbalmente e em contextos limitados (frases, tweets). É normalmente abordada como um problema de classificação de texto que se baseia na presença de um conjunto de características como a utilização de antónimos, palavras com vários sentidos, expressões idiomáticas ou calão.

No entanto, a maior parte dos trabalhos nesta área foi desenvolvido para o inglês. Apesar de trabalhos relacionados, como o reconhecimento de ironia e emoções, desconhece-se trabalho focado no reconhecimento de humor em texto escrito em português.

Objetivo

Nesta dissertação pretende-se desenvolver um modelo computacional para o reconhecimento automático de humor escrito em português.

Será necessário, por um lado, recorrer a um conjunto de ferramentas capazes de extrair as características relevantes para o reconhecimento de humor e, por outro, recolher um conjunto de textos humorísticos e não humorísticos que possam ser utilizados para testar várias versões do modelo e medir os progressos alcançados.

Prevê-se a utilização de: (a) um conjunto de ferramentas necessárias para o processamento básico da língua portuguesa (separação de um texto em palavras, identificação de categorias gramaticais, ...), actualmente disponíveis e, na sua maioria, com alternativas desenvolvidas no grupo CMS do CISUC; (b) um conjunto de léxicos computacionais, também disponíveis livremente, que possam ser utilizados para identificar diferentes sentidos de uma palavra, se uma palavra pode ser utilizada como calão, ou que sentimento / emoção uma palavra normalmente transmite.

Por sua vez, a recolha de textos humorísticos para treino e testes poderá recorrer a coleções de anedotas e piadas na Web, ou a mensagens da rede Twitter com determinadas hashtags (e.g. #piada), entre outros.

Numa primeira fase, um modelo de reconhecimento de humor poderá basear-se em regras sobre as características extraídas. Numa fase mais adiantada, poderão explorar-se técnicas de aprendizagem computacional (Machine Learning) supervisionada, recorrendo para isso a uma plataforma própria que já inclua os algoritmos mais famosos (e.g. Weka ou scikit-learn).
Nessa fase, será importante tirar conclusões acerca das características mais relevantes no reconhecimento de humor em português.

Para além do impacto esperado, por se tratar de um trabalho pioneiro para o português, os resultados alcançados poderão ser úteis para diferentes projetos a decorrer no CISUC, mais especificamente no desenvolvimento de chatbots, na geração automática de humor, e na monitorização do estado de espírito dos utilizadores de redes sociais.

Plano de Trabalhos - Semestre 1

- Estudo do estado da arte relativamente ao processamento computacional da língua e à classificação automática de texto, com foco no humor
- Recolha de textos para o conjunto de testes
- Especificação de um modelo de reconhecimento de humor e identificação das características a explorar no texto
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Implementação do protótipo, incluindo a extração de características
- Experimentação e avaliação do protótipo
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
O resultado deste trabalho pode vir a ser utilizado como um sensor humano no projeto SOCIALITE, a decorrer no CISUC e financiado pela FCT, onde se monitoriza o estado de espírito de utilizadores. Nesse contexto, haverá a possibilidade de ser financiado através de uma bolsa de investigação.

Observações

Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com o orientador, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião presencial, a marcar após um contacto por e-mail.

Orientador

Hugo Gonçalo Oliveira e Ana Alves
hroliv@dei.uc.pt 📩