Titulo Estágio
Geração de texto com base em ritmo
Área Tecnológica
Inteligência Artificial
Local do Estágio
DEI / CISUC
Enquadramento
A geração automática de texto é um tópico de investigação que tem registado grandes avanços nos últimos anos, em parte devido à sua enorme aplicabilidade prática, mas também graças à evolução que se tem verificado nas técnicas de processamento de língua natural e na qualidade dos recursos linguísticos disponíveis. O processo de geração tem, em regra geral, como entrada uma descrição semântica (o significado da mensagem que se quer transmitir) e inclui a construção de frases de acordo com um conjunto de regras gramaticais, bem como a escolha de palavras de um léxico. Em muitas aplicações de índole artístico (e também em algumas aplicações educativas), o “ritmo das palavras” pode ter importância comparável à do seu próprio significado. No cinema, no teatro, na generalidade das artes performativas, um texto pode ter que se adaptar a uma banda sonora; por vezes o ritmo sugerido pelo texto é tão conseguido que o próprio texto constitui a banda sonora ou serve de guia para a sua composição. Em certos estilos musicais, o ritmo do texto é elemento essencial da linguagem estética. O Tra-la-Lyrics [1] foi uma aplicação desenvolvida no grupo CMS do CISUC e que tinha como objectivo gerar letras em português que seguissem o ritmo de músicas fornecidas. Algumas conclusões interessantes foram tiradas acerca de como o texto deve respeitar determinado ritmo e foi ainda possível gerar letras com propriedades interessantes como a utilização de rimas ou repetição de palavras. O texto gerado não fazia no entanto grande sentido essencialmente porque, para o português, os recursos semânticos eram então escassos. Entretanto, o projecto PAPEL [2] conseguiu extrair de forma automática relações entre as palavras de um dicionário, dando origem a um importante recurso semântico, ao estilo do WordNet[1], mas para a língua portuguesa. Nessa estrutura as palavras podem relacionar-se de várias formas com outros palavras, como por exemplo através da relação de hiperonímia ou is-a (um conceito é uma subclasse de outro) e a meronímia ou part-of (um conceito é parte de outro). Apesar de ser já um recurso interessante, o PAPEL será alvo de melhorias no âmbito do projecto Onto.PT, iniciado no CMS em finais de 2008.
Objetivo
O objectivo desta dissertação é o desenvolvimento de soluções que permitam a construção de textos simples que se adaptem a sequências rítmicas, e que consigam ao mesmo tempo transmitir uma mensagem com algum sentido. A ideia será partir das conclusões acerca da ritmo, obtidas com o Tra-la-Lyrics, e com a utilização de recursos semânticos (como por exemplo o PAPEL) fazer uma escolha de vocábulos que respeitem determinada métrica e que faça algum sentido. O resultado poderá ser um poema, uma letra para uma música ou outro tipo de texto que com restrições ao nível do ritmo. A dissertação inclui uma componente de experimentação que tem como objectivo aferir a qualidade das soluções propostas.
Plano de Trabalhos - Semestre 1
Plano de Trabalhos - Semestre 2
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC. O estágio poderá ser remunerado.
Observações
Estágio co-orientado pelo Prof. Amílcar Cardoso (amilcar@dei.uc.pt) e pelo Mestre Hugo Oliveira (hroliv@dei.uc.pt) Referências: [1] H. Gonçalo Oliveira, A. Cardoso, F.C. Pereira , Tra-la-Lyrics: An approach to generate text based on rhythm, in Wiggins & Cardoso editors, Proceedings of the 4th joint workshop on Computational Creativity (IJWCC\'07), London [2] H. Gonçalo Oliveira, P. Gomes, and D. Santos (2008). PAPEL: a dictionary-based lexical ontology for Portuguese. In A. Teixeira, V. L. S. de Lima, L. C. de Oliveira, and P. Quaresma, editors, Proceedings of Computational Processing of the Portuguese Language, 8th International Conference (PROPOR 2008)
Orientador
Amílcar Cardoso / Hugo Oliveira
amilcar@dei.uc.pt 📩