Titulo Estágio
Reconhecimento Automático de Emoções em Texto
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI/CISUC
Enquadramento
As emoções desempenham um papel fundamental na comunicação entre seres humanos e têm impacto na tomada dos mais variados tipos de decisão. Não é por isso surpresa que o seu reconhecimento, processamento e simulação seja um tema de investigação no domínio da Inteligência Artificial. Mais especificamente, na área da Computação Afetiva procuram-se estudar as emoções e desenvolver sistemas capazes de as reconhecer, interpretar, processar e/ou simular. O reconhecimento de emoções pode ser feito através de sensores que analisam o estado físico ou comportamento de uma pessoa, ou sensores que analisam as emoções expressas em texto escrito pelas pessoas.
Dado o vasto leque de emoções (e.g. raiva, nojo, medo, felicidade, tristeza, surpresa) e a complexidade inerente, a maior parte dos trabalhos acaba por simplificar o problema e adoptar modelos que permitem a representação de um conjunto finito de emoções, ou de um conjunto de dimensões (e.g. valência, activação, dominância) que permitem descrever o estado emocional.
Este trabalho foca-se no reconhecimento de emoções em texto, um problema ligado ao Processamento de Linguagem Natural (PLN) e Text Mining. Neste âmbito, a forma mais comum de abordar o problema é considerar cada emoção como uma classe a que frases / textos podem ou não pertencer. A partir daí, o objectivo passa por classificar automaticamente essas frases / textos consoante as características (e.g. palavras, expressões, sinais de pontuação) que apresentam, o que pode ser aprendido com base num conjunto de exemplos (aprendizagem supervisionada), ou basear-se em regras, que podem recorrer à informação em léxicos de emoções.
Aos desafios relacionados com a classificação, juntam-se os desafios relacionados com a forma como as mesmas emoções são transmitidas em diferentes línguas ou culturas.
Ou seja, apesar de haver muito trabalho nesta área em texto inglês, muito desse trabalho não será diretamente adaptável a outras línguas, como o português, em que há um volume de trabalho muito inferior.
O projeto SOCIALITE, financiado pela FCT, tem como principal objectivo definir uma versão genérica de uma arquitetura "Internet of Things" (IoT) que pode ser usada no desenvolvimento de soluções específicas para domínios centrados nas pessoas.
Para além de um conjunto de sensores fisiológicos, para monitorizar diferentes aspetos dos utilizadores, pretendem-se desenvolver sensores sociais, de forma a complementar os dados recolhidos pelos sensores com informação transmitida em texto, nomeadamente em redes sociais.
Objetivo
Nesta dissertação pretendem-se explorar diferentes técnicas e recursos disponíveis para o reconhecimento de emoções transmitidas em texto, tendo como principal objectivo a sua utilização no projeto SOCIALITE.
Apesar de se pretender chegar a uma abordagem adaptável a diferentes tipos de texto, o foco principal será o texto a circular nas redes sociais, nomeadamente no Twitter e Facebook. Para além disso, como os casos de estudo previstos para o SOCIALITE terão como alvo utilizadores portugueses, o grande objetivo passa por reconhecer emoções em texto escrito em português, onde há menos trabalhos que para outras línguas, como o inglês.
Idealmente, o trabalho deverá incluir uma análise com vista à identificação de diferenças entre o reconhecimento e tratamento das emoções em português e noutras línguas, como o inglês e o espanhol, provocadas por razões culturais ou por limitações ao nível dos recursos disponíveis.
Entre as ferramentas a utilizar no processamento de texto em português destaca-se um conjunto de ferramentas (NLPPort) desenvolvidas no grupo CMS do CISUC, que permitem, entre outros, a separação do texto em palavras ou a identificação de funções gramaticais e formas base das palavras. Espera-se também a exploração de outros recursos computacionais disponíveis para o português, tais como léxicos de sentimento (e.g. SentiLex-PT), léxicos de emoções (e.g. ANEW.PT), léxicos semânticos (e.g. Onto.PT), ou mesmo léxicos de calão (e.g. Dicionário de Calão e Expressões Idiomáticas). Tratando-se de texto em redes sociais, será ainda importante considerar a presença de emojis.
Depois de estudar e selecionar os modelos de emoções a usar, as ferramentas anteriores serão utilizadas para identificar palavras especialmente associadas a emoções e / ou para extrair um conjunto de características que representem o texto analisado. Sobre estas características podem ser aplicadas regras ou, numa fase mais adiantada, ser exploradas na aprendizagem automática (Machine Learning) de um modelo de reconhecimento de emoções, recorrendo, por exemplo, a uma plataforma própria que já inclua os algoritmos mais famosos (e.g. Weka ou scikit-learn). Será ainda importante chegar a algumas conclusões acerca das características mais relevantes no reconhecimento automático de emoções, o que poderá também levar a uma melhoria de desempenho dos modelos.
Para permitir uma medição de progressos e também a aprendizagem automática de modelos será necessário recorrer a dados anotados com informação acerca das emoções.
Assim, o trabalho deverá incluir um levantamento de recursos possam ser explorados com este fim, ou a análise de alternativas para a criação de dados. Uma ideia passa por obter publicações no Twitter que utilizem determinados emojis ou hashtags associados a uma emoção.
Espera-se que este trabalho possa ter impacto científico, especialmente ao nível do reconhecimento automático de emoções em português, onde acreditamos poder avançar o estado da arte, e também no que diz respeito à utilização de técnicas de PLN por um sistema IoT.
Plano de Trabalhos - Semestre 1
- Levantamento do estado da arte de Computação Afetiva (aplicações, modelos)
- Levantamento do estado da arte relativamente ao processamento computacional da língua e à classificação automática de texto, com foco nas emoções
- Identificação e recolha inicial de dados
- Seleção de um modelo de emoções e ferramentas a explorar
- Especificação de um modelo de reconhecimento e identificação das características a explorar
- Elaboração da proposta de dissertação
Plano de Trabalhos - Semestre 2
- Exploração de abordagens baseadas em regras para português
- Exploração de abordagens baseadas em aprendizagem
- Avaliação de diferentes abordagens
- Elaboração da dissertação
- Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
O resultado deste trabalho pode vir a ser utilizado no projeto SOCIALITE e, nesse contexto, há a possibilidade de ser remunerado através de uma bolsa de investigação.
Observações
Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com o orientador, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião presencial, a marcar após um contacto por e-mail.
Orientador
Hugo Gonçalo Oliveira e Luís Macedo
hroliv@dei.uc.pt 📩