Titulo Estágio
Desenvolvimento de Algoritmos de IA para Aplicação em Saúde
Local do Estágio
Figueira da Foz
Enquadramento
A área da saúde tem beneficiado significativamente dos avanços em Inteligência Artificial (IA), com aplicações que vão desde o diagnóstico assistido até à monitorização contínua de pacientes. Neste contexto e de acordo com a principal atividade da empresa detentora da aplicação drBox para a saúde , pretende-se desenvolver algoritmos de IA capazes de:
Analisar grandes volumes de dados clínicos (imagens médicas, sinais biológicos, registos eletrônicos de saúde)
Auxiliar na detecção precoce de doenças
Suportar decisões médicas com base em preditores robustos e explicáveis
Este estágio permitirá ao estudante aplicar conceitos avançados de IA e Aprendizagem Automática (Machine Learning) a dados reais, consolidando competências teóricas e práticas.
Objetivo
Objetivos Gerais
Recolha e pré-processamento de dados clínicos obtidos pelas nossas aplicações – Construir pipelines para limpeza, normalização e anonimização.
Desenvolvimento de modelos preditivos – Implementar e otimizar redes neurais profundas (CNN, RNN, Transformers) ou outros algoritmos adequados (Random Forest, XGBoost) para futura implementação nas nossas aplicações.
Avaliação e explicabilidade – Utilizar métricas de performance (AUC, F1-score, precisão, recall) e técnicas de explicação (SHAP, LIME).
Integração nas aplicação desenvolvidas pela empresa – a implementar devera ser integrada na nossa app web e mobile que permita carregar dados e visualizar resultados.
Plano de Trabalhos - Semestre 1
1. Planeamento
Reunião de Kick-off, definição de requisitos, levantamento de dados
2 semanas
2. Aquisição e Pré-processo
Recolha, limpeza, anotação e anonimização dos dados
1 mês
3. Prototipagem de Modelos
Implementação inicial, tuning de hiperparâmetros
1,5 meses
Plano de Trabalhos - Semestre 2
Enquadramento ECTS: No 2.º semestre a dedicação é integral (40 ECTS). Assim, o plano enfatiza tarefas de desenvolvimento, validação e documentação nesse período, enquanto o 1.º semestre (se aplicável) privilegia a preparação, definição do problema e provas de conceito.
Macro‑etapas
Definição e Preparação (pré‑2.º semestre / início do estágio)
Levantamento de requisitos clínicos e técnicos com as partes interessadas (médicos, investigadores, técnicos de TI).
Revisão da literatura e do estado da arte (diagnóstico assistido, modelos de referência, regulamentação em saúde).
Proposta detalhada de dados e métricas; plano de anonimização e enquadramento ético.
Aquisição, Curadoria e Engenharia de Dados
Recolha/integração de conjuntos de dados (imagens médicas, sinais fisiológicos, registos eletrónicos de saúde).
Limpeza, balanceamento, tratamento de valores em falta e criação de variáveis/características.
Estruturação de um repositório de dados (data lake/warehouse) e versionamento (ex.: DVC, lakeFS).
Modelação e Experiências Sistemáticas (núcleo do 2.º semestre)
Modelos de referência (regressão logística, Random Forest, XGBoost) para estabelecer comparações.
Desenvolvimento de modelos de aprendizagem profunda (CNN, RNN/LSTM, Transformers, modelos multimodais).
Otimização de hiperparâmetros automatizada (Optuna/Hyperopt).
Estratégias de validação (k‑fold estratificado, validação cruzada aninhada) e controlo de fugas de informação (data leakage).
Avaliação com métricas clinicamente relevantes (AUC‑ROC/PR, sensibilidade, especificidade, VPP/VPN) e análise por subgrupos.
Explicabilidade, Robustez e Avaliação de Viés
Aplicação de técnicas de explicação (SHAP, LIME, Grad‑CAM/Layer‑wise Relevance Propagation).
Testes de robustez (perturbações, mudanças de distribuição).
Auditoria de viés (métricas de equidade) e respetiva mitigação.
Integração e Protótipo Aplicacional
Exposição do modelo via API (FastAPI/Flask) e contentorização (Docker).
Interface de utilizador (web/desktop) para carregamento de dados e visualização de resultados/explicações.
Registo de logs, monitorização básica e documentação de endpoints.
Documentação Científica e Transferência
Redação do relatório final (metodologia, resultados, discussão, limitações).
Preparação de artigo curto/resumo para conferência ou workshop (opcional).
Entrega do código e dados (sob regras de confidencialidade) com guias de reprodução.
4.1 Entregáveis e Pesos Indicativos
Etapa 1 – Documento de requisitos e revisão de literatura (10%): definição do problema e objetivos, identificação dos conjuntos de dados alvo, seleção de métricas de avaliação e elaboração do plano ético.
Etapa 2 – Pipeline de dados e relatório de qualidade (15%): implementação dos scripts de ETL, produção de um relatório de qualidade/consistência dos dados e documentação do processo de anonimização.
Etapa 3 – Relatório de experiências e modelos (30%): desenvolvimento de modelos de referência e de aprendizagem profunda otimizados, incluindo tabelas e análise comparativa das métricas obtidas.
Etapa 4 – Dossiê de explicabilidade e robustez (15%): aplicação de técnicas como SHAP e LIME, realização de testes de robustez e compilação de um relatório de viés e respetivas estratégias de mitigação.
Etapa 5 – Protótipo funcional e documentação técnica (20%): disponibilização do modelo através de API, desenvolvimento da interface de utilizador e elaboração de um guia de utilização e de deployment.
Etapa 6 – Relatório final e apresentação (10%): entrega do documento final completo, preparação dos diapositivos e apresentação oral pública/interna.
4.2 Conformidade Ética, Legal e Normativa
RGPD/GDPR: Garantir anonimização/pseudonimização, bases legais de tratamento e gestão de consentimento.
MDR (UE 2017/745) & IVDR (2017/746): Avaliar se o protótipo constitui software como dispositivo médico (SaMD) e cumprir os requisitos aplicáveis.
ISO 13485 & ISO/IEC 62304 (software médico): Boas práticas de desenvolvimento e documentação sempre que pertinente.
ISO/IEC 27001 & 27701: Requisitos de segurança e privacidade da informação.
Ética: Submissão ao Comité de Ética/Comissão de Proteção de Dados quando necessário; registo das decisões e autorizações.
Transparência e Equidade: Métricas de equidade, mitigação de viés e explicabilidade como parte integrante do processo.
Condições
Recursos Computacionais: acesso a servidores com GPUs NVIDIA (Tesla V100/RTX 3090), ambiente Python pronto com TensorFlow, PyTorch, scikit-learn e bibliotecas auxiliares.
Infraestrutura em Nuvem: créditos Azure até 500 USD para treino de modelos em larga escala.
Software e Licenças: MATLAB, PyCharm Professional, Visual Studio e ferramentas de colaboração (Slack, Confluence).
Espaço de Trabalho: secretária, PC de alto desempenho, escritório partilhado nos nossos escritórios .
Formação e Eventos: participação em workshops internos/externos, seminários e conferências (até 2 por ano, previa aprovação).
Orientador
Flavio Maia
f.maia@qualityacademy.pt 📩