Titulo Estágio
Explorações na Geração Automática de Texto Criativo
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI/CISUC
Enquadramento
A Criatividade Computacional é uma subárea emergente da Inteligência Artificial que visa o desenvolvimento de sistemas computacionais com comportamentos que possam ser considerados criativos. Destacam-se sistemas capazes de compor música ou gerar arte visual, para além de sistemas de criatividade linguística que criam histórias, produzem humor ou escrever poesia. Na última década, o grupo CMS do CISUC tem sido activo na área.
Um dos sistemas criativos desenvolvidos no CMS é o PoeTryMe (ver http://poetryme.dei.uc.pt, ou versão co-criativa http://poetryme.dei.uc.pt/~copoetryme/), um sistema que gera poesia de acordo com um conjunto de parâmetros, incluindo palavras que definem um domínio semântico. O PoeTryMe tem uma arquitetura flexível que o permite adaptar-se à geração de poemas com diferentes configurações, incluindo estruturas mais clássicas (e.g. sonetos) ou de letras de música, escritos, actualmente, em português, espanhol ou inglês. A mesma arquitetura permite a utilização de diferentes estratégias na geração, seleção e organização de versos.
Contudo, apesar das várias instanciações do PoeTryMe, acreditamos que há muito por explorar relativamente à sua utilização na geração automática de poesia, especialmente em português.
Por exemplo:
(1) Os versos são gerados com recurso a uma gramática relativamente simples quando, principalmente nos últimos anos, o mais comum tem sido desenvolver geradores baseados em modelos de linguagem ("language models", modelos probabilísticos de sequências de palavras), aprendidos em grandes quantidades de texto, incluindo texto poético, na sua maioria com recurso a redes neuronais.
(2) Apesar do PoeTryMe ter acesso a uma rede que o permite usar palavras dentro de um domínio semântico, a ordem dos versos e a seleção de palavras não considera outros aspetos importantes na poesia, como a abstração e a imagética.
(3) É possível forçar o sistema a usar palavras de acordo com a sua polaridade (positiva ou negativa), mas nada mais é possível fazer ao nível das emoções, de um modo mais geral.
Os últimos dois aspetos poderiam ser considerados através da exploração de léxicos que associam palavras a níveis de imagética ou emoções, e que existem, entre outras línguas, para o português (ver, por exemplo, http://p-pal.di.uminho.pt/about/databases).
Para além do PoeTryMe, na área da criatividade linguística há outros trabalhos desenvolvidos no CMS, nomeadamente na geração automática de humor para a Internet (ver https://twitter.com/memegera).
Objetivo
Esta dissertação tem como principal objetivo a exploração de modelos de linguagem na geração de poesia, letras de música ou até outros tipos de texto em português, com vista à sua potencial integração no PoeTryMe.
Pretendem-se explorar modelos mais clássicos, baseados em n-gramas, e também modelos do estado da arte da geração automática de texto, baseados em redes neuronais. Estes modelos deverão, numa fase inicial, ser treinados e testados com recurso a ferramentas disponíveis, mas poderão depois ser pontualmente alterados, de forma a considerarem aspetos específicos do tipo de texto a gerar (e.g. métrica e presença de rimas na poesia), e ainda um conjunto de estímulos iniciais (e.g. palavras-chave).
A recolha de textos para treinar os modelos será essencial. Esses textos poderão incluir poemas, letras de música, entre texto de outros géneros, como provérbios, citações ou outras publicações em redes sociais.
Será também interessante treinar diferentes modelos com textos do mesmo autor e verificar até que ponto o texto gerado, ainda que novo, pode ser associado ao estilo desse autor.
Na verdade, consoante os textos recolhidos, a exploração de modelos de linguagem pode ser aplicada à geração de poesia ou outros tipos de texto, com a finalidade de entretenimento, tais como novos "provérbios", piadas, ou até citações motivacionais.
Tanto quanto sabemos, o trabalho científico na geração automática de texto em português seguindo modelos de linguagem é muito pouco. Ou seja, este trabalho teria também essa componente de novidade.
Para além dos modelos de linguagem, interessa estudar a possibilidade de considerar aspetos como a imagética e as emoções na geração automática de texto criativo. Por exemplo, no caso da poesia, os versos podem ser reordenados dos mais abstractos para os mais concretos e pode forçar-se a utilização de palavras associadas às emoções que se deseja transmitir.
É sabido que a avaliação de artefatos criativos pode ser subjetiva, por isso a validação dos resultados obtidos deverá basear-se, sempre que possível, em aspetos mais concretos, e na análise do impacto de diferentes parâmetros num conjunto de resultados obtidos.
Por exemplo, a capacidade de gerar versos com o número correto de sílabas e com rimas pode ser comparada em texto produzido por diferentes modelos desenvolvidos e ainda com aqueles que já existem no PoeTryMe.
Ainda assim, será importante recorrer a uma avaliação humana, que pode começar por analisar reações à leitura dos textos gerados ou à sua opinião consoante a presença de diferentes fenómenos (e.g. correção gramatical, originalidade, sonoridade, imagética, emoções, reconhecimento do estilo), traduzida numa escala numérica.
Plano de Trabalhos - Semestre 1
- Familiarização com o domínio da Criatividade Computacional, como foco na geração de texto
- Levantamento estudo do estado da arte relativamente a modelos de linguagem
- Recolha de textos para a aprendizagem dos modelos
- Seleção de ferramentas a usar e testes com modelos existentes
- Elaboração da proposta de dissertação
Plano de Trabalhos - Semestre 2
- Adaptação de modelos existentes para a geração de pelo menos um tipo de texto
- Comparação e validação dos resultados
- Estudar possibilidade de considerar imagética e / ou emoções
- Levantamento de requisitos para integração no PoeTryMe
- Elaboração da dissertação
- Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte do orientador.
Observações
Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com o orientador, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião presencial, a marcar após um contacto por e-mail.
Orientador
Hugo Gonçalo Oliveira
hroliv@dei.uc.pt 📩