propostas submetidas

DEI - FCTUC
Gerado a 2024-11-21 21:09:01 (Europe/Lisbon).
Voltar

Titulo Estágio

Reconhecimento automático de humor

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI-FCTUC

Enquadramento

O humor é uma característica humana que, através de uma incongruência, promove o riso e liberta tensão.

Sabemos que há cada vez mais sistemas inteligentes, que interagem com os humanos através da linguagem humana (vulgo, chatbots), que precisam de compreender o melhor possível. Fazê-lo cada vez melhor passa também pelo reconhecimento de humor. Ao identificar uma interação mais humorística, um sistema deste tipo pode alterar as acções a tomar, desvalorizando a interação, ou até procurando responder num nível semelhante.

A investigação nesta área tem-se focado em tipos específicos de humor, expresso verbalmente e em contextos limitados (frases, tweets). Esta tarefa é normalmente abordada como um problema de classificação de texto e baseia-se na presença de um conjunto de características como a utilização de antónimos, palavras com vários sentidos, expressões idiomáticas ou calão.

No entanto, a maior parte dos trabalhos nesta área foi feita para o inglês. Apesar de trabalhos relacionados, como o reconhecimento de ironia, desconhece-se trabalho focado no reconhecimento de humor em português.

Objetivo

Nesta dissertação pretende-se desenvolver um sistema computacional para o reconhecimento automático de humor, com foco no escrito em português.

Será necessário, por um lado, recorrer a um conjunto de ferramentas capazes de extrair as características relevantes para o reconhecimento de humor e, por outro, recolher um conjunto de textos humorísticos e não humorísticos que possam ser utilizados para testar as várias versões do sistema e medir os progressos alcançados.

Prevê-se a utilização de: (a) um conjunto de ferramentas necessárias para o processamento básico da língua portuguesa (separação de um texto em palavras, identificação de categorias gramaticais, ...), actualmente disponíveis e, na sua maioria, com alternativas desenvolvidas no grupo CMS do CISUC; (b) um conjunto de léxicos computacionais, também disponíveis livremente, que possam ser utilizados para identificar diferentes sentidos de uma palavra, se uma palavra pode ser utilizada como calão, ou que sentimento uma palavra normalmente transmite. Se necessário, o conjunto de léxicos poderá ainda ser enriquecido com recurso a conhecimento recolhido da Web.

Por sua vez, a recolha de textos humorísticos para realizar os testes poderá recorrer a coleções de anedotas e piadas na Web, ou a mensagens da rede Twitter com determinadas hashtags (e.g. #piada), entre outros.

Numa primeira fase, um modelo de reconhecimento de humor poderá basear-se em regras sobre as características extraídas. Numa fase mais adiantada, poderão explorar-se técnicas de aprendizagem computacional (machine learning), recorrendo para isso a uma plataforma própria que já inclua os algoritmos mais famosos (e.g. Weka ou scikit-learn).

Plano de Trabalhos - Semestre 1

- Estudo do estado da arte relativamente ao processamento computacional da língua e à classificação automática de texto, com foco no humor
- Recolha de textos para o conjunto de testes
- Especificação de um modelo de reconhecimento de humor e identificação das características a explorar no texto
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Implementação do protótipo, incluindo a extração de características
- Experimentação e avaliação do protótipo
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
O resultado deste trabalho pode ser integrado num sistema de detecção da relevância de publicações em redes sociais. Neste contexto, os primeiros quatro meses deste trabalho poderão ser remunerados através de uma bolsa licenciado (745€/mês), financiada pela FCT. Para tal, os alunos interessados terão de se candidatar à seguinte bolsa até a dia 18 de julho de 2017: http://www.eracareers.pt/opportunities/index.aspx?task=global&jobId=91692&lang=pt

(apesar do indicado, o local de trabalho pode ser o Departamento de Engenharia Informática da Universidade de Coimbra).

Orientador

Hugo Gonçalo Oliveira e Ana Oliveira Alves
hroliv@dei.uc.pt 📩