Propostas Submetidas - sem aluno

DEI - FCTUC
Gerado a 2024-04-24 06:26:56 (Europe/Lisbon).
Voltar

Titulo Estágio

Reconhecimento automático de humor escrito em português

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI-FCTUC

Enquadramento

O humor é uma característica humana que, através de uma incongruência, promove o riso e liberta tensão.

É importante que os sistemas inteligentes sejam capazes de compreender cada vez melhor a língua utilizada pelos humanos, o que passa também pelo reconhecimento de humor, com impacto, entre outros, na interação humano-computador ou na classificação automática de texto.

A investigação no reconhecimento automático de humor tem-se focado em tipos específicos de humor, expresso verbalmente e em contextos limitados (frases, tweets). Esta tarefa é normalmente abordada como um problema de classificação de texto e baseia-se na presença de um conjunto de características como a utilização de antónimos, palavras com vários sentidos, expressões idiomáticas ou calão.

Mas a maior parte dos trabalhos anteriores foi feita para o inglês. Apesar de trabalhos relacionados, como o reconhecimento de ironia, desconhece-se trabalho focado no reconhecimento de humor em português.

Objetivo

Pretende-se desenvolver um sistema computacional para o reconhecimento automático de humor escrito em português.

Será necessário, por um lado, recorrer a um conjunto de ferramentas capazes de extrair as características relevantes para o reconhecimento de humor e, por outro, recolher um conjunto de textos humorísticos e não humorísticos que possam ser utilizados para testar as várias versões do sistema e medir os progressos alcançados.

Prevê-se a utilização de: (a) um conjunto de ferramentas necessárias para o processamento básico da língua portuguesa (separação de um texto em palavras, identificação de categorias gramaticais, ...), actualmente disponíveis e, na sua maioria, desenvolvidas no grupo CMS do CISUC; (b) um conjunto de léxicos computacionais, também disponíveis livremente, que possam ser utilizados para identificar diferentes sentidos de uma palavra, se uma palavra pode ser utilizada como calão, ou que sentimento uma palavra normalmente transmite. Se necessário, o conjunto de léxicos poderá ainda ser enriquecido com recurso a conhecimento recolhido da Web.

Por sua vez, a recolha de textos humorísticos para realizar os testes poderá recorrer a coleções de anedotas e piadas na Web, ou a mensagens da rede Twitter com determinadas hashtags (e.g. #piada), entre outros.

Para além da dissertação, tendo em conta que esta é uma área pouco explorada, principalmente para o português, os resultados obtidos devem ser também descritos num artigo científico.

Plano de Trabalhos - Semestre 1

- Estudo do estado da arte relativamente ao processamento computacional da língua e à classificação automática de texto, com foco no humor
- Recolha de texto para o conjunto de testes
- Especificação de um modelo de reconhecimento de humor e identificação das características a explorar no texto
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Implementação do protótipo, incluindo a extração de características
- Experimentação e avaliação do protótipo
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.

Orientador

Hugo Gonçalo Oliveira e Ana Oliveira Alves
hroliv@dei.uc.pt 📩