Propostas submetidas

DEI - FCTUC
Gerado a 2025-06-25 12:18:02 (Europe/Lisbon).
Voltar

Titulo Estágio

Abordagens para integração segura de LLMs no contexto de psicoterapia

Local do Estágio

IPN - Instituto Pedro Nunes (Laboratório de Informática e Sistemas)

Enquadramento

Este tema enquadra-se no projeto OwnMyMind – Psicoterapia psicodinâmica autónoma sem barreiras suportada por IA, liderado pela Blindtalk, e com a participação do Instituto Pedro Nunes, financiado pelo Centro 2030. O projeto OwnMyMind visa desenvolver um agente conversacional autónomo suportado por IA que se comporta como um psicoterapeuta psicodinâmico virtual, ajudando os utilizadores a explorar e a compreender as suas emoções e pensamentos de forma profunda e significativa.
A crescente adoção de LLMs (large language models), resultante das suas capacidades avançadas de processamento e geração com base em linguagem natural, em aplicações no setor da saúde como chatbots coloca desafios ao nível da ética e uso responsável destes modelos. A segurança é nesse sentido um aspeto crítico na utilização de LLMs, dada a possibilidade destes modelos gerarem sugestões ou resultados potencialmente perigosos ou nocivos, seja por alucinação, ou ataques como envenenamento de dados, injeções por prompt ou jailbreaks, que podem potenciar diversos impactos negativos(1). De forma a endereçar esses riscos, abordagens como fornecimento de contexto detalhado de utilização permitida, a filtragem ou processamento dos conteúdos ingeridos e gerados por LLMs através de mecanismos como filtros de entrada / saída de dados (i.e. guardrails) (ex.: GuardrailsAI(2), NeMo Guardrails(3)), ou a restrição dos privilégios de acesso dos modelos são propostos(4).
O trabalho associado será realizado no contexto de uma equipa multi-disciplinar envolvida na investigação de tópicos como cibersegurança de IA, gestão de contexto de LLMs, multi-modalidade ou abordagens multi-agente. A recolha de dados não faz parte do âmbito do trabalho. Irão ser utilizados datasets existentes tais como:
- Dados privados (relativos a intervenções anonimizados da empresa)
- Dados disponíveis publicamente considerados representativos dos casos de uso, tais como Mental Health Counseling Conversations (5)
- Dados com inputs adversariais ou maliciosas para avaliação da LLM tais como AdvBench (6)
___
(1)Badhan Chandra Das, M. Hadi Amini, and Yanzhao Wu. 2025. Security and Privacy Challenges of Large Language Models: A Survey. ACM Comput. Surv. 57, 6, Article 152 (June 2025), 39 pages. https://doi.org/10.1145/3712001
(2)https://www.guardrailsai.com/
(3)https://docs.nvidia.com/nemo/guardrails/latest/index.html
(4)https://genai.owasp.org/resource/owasp-top-10-for-llm-applications-2025/
(5)https://www.kaggle.com/datasets/melissamonfared/mental-health-counseling-conversations-k
(6)https://github.com/llm-attacks/llm-attacks

Objetivo

Pretende-se identificar, desenvolver e integrar mecanismos tais como controlo de privilégios de acesso, guardrails ou contexto de utilização autorizada (ou não autorizada), que melhorem o alinhamento de segurança de LLMs no contexto da sua aplicação em diálogos com fins psicoterapêuticos, e previnam ou minimizem riscos como injeção direta ou indireta, melhorando a integração responsável de LLM nesse âmbito.
Nesse sentido, o trabalho contempla o estudo aprofundado e configuração de grandes modelos de linguagem (LLMs), riscos e ameaças que afetam a sua segurança no contexto em causa, mecanismos de proteção / controlo adequados aos riscos principais, e metodologias de avaliação adequadas.

Plano de Trabalhos - Semestre 1

[Semana 1 - 8] Revisão da literatura da área de grandes modelos de linguagem (LLMs), riscos e ameaças associados à integração de LLMs para diálogos de longo contexto com utilizadores, mecanismos focados em fornecer segurança à operação de LLMs (em particular, definição de privilégios de acesso a dados ou ferramentas, e mecanismos de filtragem de outputs), incluindo atividades da indústria particularmente relevantes (ex. OWASP GenAI Security Project ).
[Semana 6 - 14] Estudo e familiarização com ferramentas de filtragem open-source de referência, como Llama Guard, NVIDIA NeMoGuardrails, GuardrailsAI, Semgrep, PyRIT, garak, etc.
[Semana 13 - 16] Estudo e definição de casos de uso e requisitos para a solução.
[Semana 15 - 20] Especificação de alto-nível da solução.
[Semana 16 – 20] Preparação do relatório intermédio da dissertação.

Plano de Trabalhos - Semestre 2

[Semana 1 - 6] Experimentação com ferramentas open-source selecionadas.
[Semana 4 - 14] Especificação detalhada da solução e respetiva implementação, alinhada aos requisitos e casos de uso definidos.
[Semana 13 - 17] Avaliação da solução implementada, considerando abordagem e datasets/benchmarks de referência (ex.: testes de prompt injection da CyberSec Eval 4).
[Semana 14 - 20] Preparação e escrita da dissertação final.

Condições

O local de trabalho será o Laboratório de Informática e Sistemas (LIS), Instituto Pedro Nunes (IPN), que disponibiliza a infraestrutura para experimentação e avaliação.
Este trabalho será integrado num projeto de investigação cofinanciado, sendo que o aluno poderá candidatar-se a uma bolsa de investigação para licenciado no âmbito deste projeto, nos termos da legislação aplicável e regulamentos do IPN. O valor da bolsa é de 1040,98€, em linha com a tabela de bolsas de investigação da FCT.

Observações

Durante o processo de candidatura, dúvidas relacionadas com a proposta, nomeadamente acerca dos objetivos e condições, devem ser esclarecidas com os supervisores, via email ou reunião, para agendamento após o contacto por email.

Orientador

Sérgio Figueiredo
sfigueiredo@ipn.pt 📩