Titulo Estágio
Geração Automática de Slides de Apresentação
Áreas de especialidade
Sistemas Inteligentes
Sistemas de Informação
Local do Estágio
Laboratório de Informática e Sistemas IPN, Coimbra
Enquadramento
O papel da tecnologia na educação e formação é diverso: esta é parte integrante do currículo; é ferramenta de transmissão de conhecimento; e é instrumento passível de aumentar a eficiência de todo o processo educativo.
Neste contexto, já há vários anos que o uso de apresentações de slides (e.g., PowerPoint, Google Slides, Prezi…) é utilizado nas salas de aula/salas de formação, como meio preferencial de transmissão de conhecimento. Não obstante, a criação de uma apresentação que estimule e potencie a retenção de conhecimento por parte da plateia (independentemente da sua faixa etária) é uma tarefa bastante morosa que exige preparação por parte do apresentador. E embora, nos últimos anos, se tenha verificado o surgimento de diversas ferramentas que facilitam a construção de apresentações com um design mais apelativo, através, por exemplo do uso de templates ou temas, o mesmo não tem acontecido no campo da criação de conteúdos, razão pela qual esta é ainda uma tarefa bastante morosa.
Este trabalho foca-se na investigação e desenvolvimento de uma solução destinada à automatização da criação de conteúdos de suporte a atividades educativas e formativas, nomeadamente a geração automática de slides de apresentação.
Objetivo
Esta dissertação tem como principal objetivo a exploração de técnicas para geração automática de slides de apresentação a partir de coleções de documentos textuais usados em atividades de formação.
O componente deverá ser capaz de sumarizar os textos, identificando tópicos e extraindo ou gerando (usando termos presentes no texto) frases que identifiquem ideias chave e conceitos relevantes para cada tópico. Esses tópicos e frases serão organizados em blocos que deverão corresponder a slides de apresentação. A organização deverá respeitar as boas práticas para a criação de apresentações em termos de estrutura, e estar ordenada numa sequência que promova a coerência de discurso durante a sua apresentação em contexto formativo. Os conteúdos de cada slide poderão variar entre excertos de texto, listas de frases relevantes (bullet points), associados a títulos que identificam o tema do slide.
O trabalho deverá assentar na aplicação de técnicas de Processamento de Linguagem Natural (NLP) e Aprendizagem Computacional (AC). Como tal, inicialmente, será necessária uma familiarização com as áreas de sumarização de textos, modelação de tópicos e extração de palavras chave e conceitos, e um estudo aprofundado das abordagens já existentes para o problema de geração de slides de apresentação.
Pretende-se que as abordagens desenvolvidas sejam capazes de processar textos, e gerar conteúdos para slides de apresentação, tanto para a língua inglesa como portuguesa.
A grande maior parte de trabalhos publicados pela comunidade científica, que abordam este problema, foca-se na língua Inglesa. Como tal, existem ferramentas, modelos e conjuntos de dados, em grande maior número, para a língua Inglesa, comparativamente à língua Portuguesa. Ainda assim, de forma geral, o problema de geração de slides de apresentação é ainda um problema aberto, pelo que, acreditamos que possam surgir contribuições científicas relevantes, deste trabalho, a nível da geração automática de slides de apresentação para ambas as línguas, mas também a nível do desenvolvimento de modelos e da criação de conjuntos de dados relativamente à língua portuguesa.
O desenvolvimento e validação de soluções será realizado com base em datasets, disponíveis publicamente, das áreas de sumarização de textos, extração de frases chave e geração automática de slides de apresentação. Entre outros, será considerada a utilização dos seguintes:
- document2slides - Dataset para geração de slides de apresentação, da IBM, com mais de 100 casos; (https://github.com/IBM/document2slides)
- ScisummNet - Dataset de sumarização da Stanford University, com mais de 1000 casos de sumarização de documentos; (https://cs.stanford.edu/~myasu/projects/scisumm_net/)
- Summ-it - Dataset de sumarização de documentos de língua Portuguesa com 50 casos; (https://hdl.handle.net/21.11129/0000-000B-D30E-8)
- ake-datasets - Uma coleção de datasets curados, da área de extração de frases chave, de entre os quais os mais relevantes são o KP20k com 527090 casos de treino, o CSTR e SemEval-2010 com 144 e 130 casos de treino, respectivamente, com base em artigos científicos completos, e o 110-PT-BN-KP, um dataset Português com mais de 100 casos de treino com base em Notícias. (https://github.com/boudinfl/ake-datasets)
Plano de Trabalhos - Semestre 1
- Revisão da literatura
- Identificação e familiarização com ferramentas úteis ao trabalho
- Identificação de dados usar no treino e validação dos modelos
- Análise de requisitos
- Elaboração da proposta de dissertação.
Plano de Trabalhos - Semestre 2
- Experimentação
- Implementação de soluções
- Avaliação das abordagens propostas
- Elaboração da dissertação de mestrado.
- Escrita de artigo científico.
Condições
O local de trabalho será no Laboratório de Informática e Sistemas do IPN, caso a situação pandémica o permita.
O trabalho será integrado num projeto de investigação em co-promoção, no âmbito do qual o estudante se poderá candidatar a uma bolsa de investigação para licenciado, durante um período de 6 meses renovável, no valor de 835€ / mês.
Observações
Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com os orientadores, através de e-mail ou de uma reunião, a marcar após um contacto por e-mail.
Orientador
Hugo Dinis Pereirinha da Silva Amaro
hamaro@ipn.pt 📩