Propostas Submetidas

DEI - FCTUC
Gerado a 2025-07-17 14:57:10 (Europe/Lisbon).
Voltar

Titulo Estágio

Understanding Scientific Diagrams with Multimodal Language Models: A Study on LLM-Based Visual Reasoning in Scientific Literature

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI-FCTUC

Enquadramento

Esta proposta de MSc enquadra-se no projeto AMALIA, que tem como objetivo principal a criação de um Modelo de Linguagem em Grande Escala (LLM) para a Língua Portuguesa de Portugal. É uma colaboração entre a Fundação para a Ciência e a Tecnologia, a Universidade Nova de Lisboa, o Instituto Superior Técnico, a Universidade do Porto, Universidade do Minho e a Universidade de Coimbra (UC). Além do LLM base, estão a ser preparadas versões especializadas em diferentes domínios, e cabe à equipa da UC a especialização no domínio da Ciência.

Diagramas científicos — como fluxogramas, gráficos, histogramas, mapas de calor e esquemas — são fundamentais para comunicar resultados experimentais e conceitos complexos. No entanto, a extração automática de informação útil a partir destes elementos visuais continua a ser um desafio significativo na área da Inteligência Artificial. Os recentes avanços em modelos de linguagem multimodais (MLLMs) — como o GPT-4V, LLaVA, BLIP-2 e MiniGPT-4 — oferecem novas possibilidades ao combinarem perceção visual com compreensão textual.

Os trabalhos anteriores que exploraram esta ideia (e.g., [1], [2], [3]) identificaram também várias limitações, como a falta de métodos que combinem o conteúdo dos diagramas com secções do texto com referência às respectivas figuras, alinhamento contextual, entre outras.

[1] Li, X., Sun, Y., Cheng, W., Zhu, Y., & Chen, H. (2025). Chain-of-region: Visual Language Models Need Details for Diagram Analysis. In The Thirteenth International Conference on Learning Representations.
[2] Hu, A., Shi, Y., Xu, H., Ye, J., Ye, Q., Yan, M., ... & Huang, F. (2024, October). mplug-paperowl: Scientific diagram analysis with the multimodal large language model. In Proceedings of the 32nd ACM International Conference on Multimedia (pp. 6929-6938).
[3] Roberts, J. S., Lee, T., Wong, C. H., Yasunaga, M., Mai, Y., & Liang, P. (2024). Image2struct: Benchmarking structure extraction for vision-language models. Advances in Neural Information Processing Systems, 37, 115058-115097.

Objetivo

O objetivo principal desta proposta é explorar e melhorar a utilização de MLLMs, como os identificados no enquadramento desta proposta, para extrair conhecimento estruturado a partir de fluxogramas e outros diagramas em publicações científicas.

Plano de Trabalhos - Semestre 1

O plano de trabalhos previsto para o semestre 1 é o seguinte:

Setembro - Outubro
Revisão da literatura nas áreas de modelos multimodais de linguagem, compreensão de diagramas científicos e extração de conhecimento visual.
Estudar arquiteturas recentes (LLaVA, BLIP-2, MiniGPT-4).
Explorar ferramentas como HuggingFace, OpenCV, Tesseract, e pipelines de OCR.

Outubro - Novembro
Avaliar conjuntos de dados públicos (e.g., ChartQA, PlotQA, M-Paper, DocFigure) quanto à relevância, qualidade e dimensão.
Realizar testes exploratórios com modelos MLLM (e.g., geração de legendas para diagramas científicos em modo zero-shot).

Novembro - Dezembro
Selecionar os modelos e datasets a utilizar.
Elaborar o relatório intermédio.

Plano de Trabalhos - Semestre 2

O plano de trabalhos previsto para o semestre 2 é o seguinte:

Fevereiro - Março
Realizar tarefas de pre-processamento de dados
Realizar experiências preliminares de forma a afinar as abordagens

Março - Abril - Maio
Realizar as experiências finais e avaliar os resultados

Junho
Escrever a dissertação de mestrado
Escrever um artigo científico para uma conferência

Condições

O/A aluno/a será integrado/a no grupo de Informations Systems ou Cognitive and Media Systems, tendo acesso à sala de investigadores e aos recursos necessários à elaboração do projeto, nomeadamente recursos computacionais.

Existe ainda a possibilidade de atribuição de uma bolsa, que está dependente da disponibilidade de verba e da qualidade do trabalho desenvolvido.

Este trabalho será orientado por:
- Prof. Jacinto Estima
- Prof. Pedro Martins

Orientador

Jacinto Estima; Pedro Martins
estima@dei.uc.pt 📩