Propostas Submetidas

DEI - FCTUC
Gerado a 2025-07-07 02:14:28 (Europe/Lisbon).
Voltar

Titulo Estágio

Implementação e avaliação de mecanismos de controlo de segurança para LLMs

Local do Estágio

IPN - Instituto Pedro Nunes (Laboratório de Informática e Sistemas)

Enquadramento

Este tema enquadra-se no projeto Ethiack Portal(1), liderado pela Ethiack, e com a participação do Instituto Pedro Nunes, financiado pelo Centro 2030 (CENTRO2030-FEDER-00565200). O projeto Ethiack Portal visa desenvolver uma solução para reduzir o tempo entre a publicação de uma vulnerabilidade (por exemplo, através de um CVE – Common Vulnerabilities and Exposures) e a sua verificação, incorporando IA em tarefas tradicionalmente realizadas por humanos, como geração de módulos de hacking ético. Para tal, é essencial garantir o uso responsável e seguro de LLMs, mitigando riscos como a geração de código malicioso/destrutivo que possa comprometer a integridade dos sistemas alvo.

A crescente adoção de LLMs, resultante das suas capacidades avançadas de processamento e geração com base em linguagem natural, em aplicações de cibersegurança tais como a automação de testes de penetração, coloca desafios ao nível da robustez, da fiabilidade e do uso responsável destes modelos.
Dada a possibilidade destes modelos gerarem resultados imprevisíveis ou nocivos, por exemplo devido a envenenamento de dados, injeções por prompt ou jailbreaks, que podem potenciar diversos impactos negativos nos sistemas que os integram(2), são necessárias abordagens cuidadosas, com base em risco, para assegurar que o seu uso seja seguro e responsável. De forma a endereçar esses riscos, a imposição de limites e barreiras aos conteúdos ingeridos e gerados por LLMs através de ferramentas como guardrails (ex.: GuardrailsAI(3), NeMo guardrails(4), ou mais recentemente, motivado pela transição para um paradigma de multi-agentes, LlamaFirewall(5)) tem sido crescentemente explorada. De forma a avaliar a segurança de LLMs ou aplicações que os integrem, e testar a eficácia de diferentes mecanismos de segurança tais como guardrails, emergem metodologias como AI red teaming/penetration testing, bem como ferramentas com o objetivo de tornar este tipo de avaliação mais eficiente (ex.: PyRIT(6), garak(7)).

(1)https://ethiack.com/ethiack-portal-ipn
(2)Badhan Chandra Das, M. Hadi Amini, and Yanzhao Wu. 2025. Security and Privacy Challenges of Large Language Models: A Survey. ACM Comput. Surv. 57, 6, Article 152 (June 2025), 39 pages. https://doi.org/10.1145/3712001
(3)https://www.guardrailsai.com/
(4)https://docs.nvidia.com/nemo/guardrails/latest/index.html
(5)https://ai.meta.com/research/publications/llamafirewall-an-open-source-guardrail-system-for-building-secure-ai-agents/
(6)https://azure.github.io/PyRIT/
(7)https://github.com/NVIDIA/garak

Objetivo

O objetivo principal do estágio consiste em avaliar diferentes mecanismos de controlo ou segurança aplicáveis a LLMs (ex.: guardrails), comparando a sua eficácia face a diferentes riscos ou ameaças, em particular outputs danosos (ex.: geração de código malicioso/destrutivo). Nesse sentido, o trabalho contempla o estudo, experimentação e integração de diferentes mecanismos de segurança aplicáveis a LLMs, assim como comparação e seleção de metodologias e mecanismos de avaliação adequadas ao contexto do projeto.
Numa fase inicial, o aluno deverá adquirir conhecimentos sobre as ameaças associadas a LLMs e ao seu uso em contextos sensíveis, como a cibersegurança. De seguida, com base no conhecimento adquirido, deverá realizar uma investigação do estado da arte relativamente a mecanismos, metodologias e ferramentas de defesa, avaliando as suas capacidades e limitações. Com esta base, o aluno deverá formular, propor, e desenvolver mecanismo(s) de segurança adaptados ao contexto do projeto, procedendo à sua validação e avaliação através de testes estruturados representativos (ex.: simulações de ataques/ red teaming).

Desta forma, os objetivos específicos propostos para a dissertação são:
(i) Análise do estado da arte de metodologias, mecanismos e ferramentas para controlo e segurança no uso de LLMs, que inclui literatura académica recente, relatórios técnicos de organizações de cibersegurança (ex.: OWASP(8)(9), NIST), e estudo de casos sobre sucessos ou falhas na aplicação de mecanismos de segurança em LLMs.
(ii) Levantamento de requisitos e planeamento de mecanismo(s) que forneçam segurança relativamente aos dados de entrada e de saída dos modelos, no contexto de geração de código.
(iii) Implementação de diferentes mecanismos de segurança, incluindo guardrails, para filtrar conteúdos maliciosos e deteção de injeções por prompt, e a realização de testes em protótipo funcional (ex.: através de simulações de ataques numa lógica de red teaming).
(iv) Avaliação da solução com modelos e em ambientes realistas e documentação dos resultados na dissertação. Comparação com resultados semelhantes do estado da arte e identificação de possibilidades de publicação científica.

(8)https://genai.owasp.org/resource/owasp-top-10-for-llm-applications-2025/
(9)https://genai.owasp.org/resource/agentic-ai-threats-and-mitigations/

Plano de Trabalhos - Semestre 1

[Semana 1 - 8] Revisão da literatura da área de grandes modelos de linguagem (LLMs), riscos e ameaças em LLMs, mecanismos de segurança para LLMs, metodologias de avaliação, bem como atividades relevantes de normalização (ex.: ETSI SAI, NIST Trustworthy and Responsible AI) e da indústria (OWASP AI Exchange).
[Semana 6 - 14] Estudo e familiarização com ferramentas open-source de referência, como Llama Guard, NVIDIA NeMo Guardrails, GuardrailsAI, Semgrep, PyRIT, garak, etc.
[Semana 13 - 16] Estudo e definição de casos de uso e requisitos para a solução.
[Semana 15 - 20] Especificação de alto-nível da solução.
[Semana 16 – 20] Preparação do relatório intermédio da dissertação.

Plano de Trabalhos - Semestre 2

[Semana 1 - 6] Experimentação com ferramentas open-source selecionadas.
[Semana 4 - 14] Especificação detalhada da solução e respetiva implementação, alinhada aos requisitos e casos de uso definidos.
[Semana 13 - 17] Avaliação da solução implementada, considerando abordagem e datasets/benchmarks de referência (ex.: CyberSec Eval 4).
[Semana 14 - 20] Preparação e escrita da dissertação final.

Condições

O local de trabalho será o Laboratório de Informática e Sistemas (LIS), Instituto Pedro Nunes (IPN), que disponibiliza a infraestrutura para experimentação e avaliação.
Este trabalho será integrado num projeto de investigação cofinanciado, sendo que o aluno poderá candidatar-se a uma bolsa de investigação para licenciado no âmbito deste projeto, nos termos da legislação aplicável e regulamentos do IPN. O valor da bolsa é de 1040,98€, em linha com a tabela de bolsas de investigação da FCT.

Observações

Durante o processo de candidatura, dúvidas relacionadas com a proposta, nomeadamente acerca dos objetivos e condições, devem ser esclarecidas com os supervisores, via email ou reunião, para agendamento após o contacto por email. 

Orientador

Sérgio Figueiredo
sfigueiredo@ipn.pt 📩