Titulo Estágio
Integração de Informação Privada em Large Language Models
Local do Estágio
Instituto Pedro Nunes, Edifício D, Rua Pedro Nunes, 3030-199 Coimbra
Enquadramento
Os Large Language Models (LLMs) têm revolucionado a forma como interagimos com a tecnologia, proporcionando respostas precisas e contextualizadas em diversas aplicações, desde assistentes virtuais até análise de sentimentos e geração de conteúdo. No entanto, uma das limitações destes modelos é a sua dependência de dados públicos para treino, o que os impede de fornecer respostas baseadas em informação privada ou interna de uma empresa. Para ultrapassar esta limitação, é necessário investigar métodos de integração de dados privados nas respostas dos LLMs, garantindo segurança e confidencialidade.
Este estágio visa investigar as diversas LLMs disponíveis no mercado, distinguindo entre modelos open source e modelos proprietários. A análise deverá focar-se nas capacidades e limitações de cada tipo, compreendendo as vantagens e desvantagens em termos de flexibilidade, custo, segurança e facilidade de integração com sistemas internos. Adicionalmente, serão exploradas metodologias para enriquecer as respostas dos LLMs com informação privada e específica da empresa. Entre as técnicas a serem estudadas, incluem-se o fine-tuning com dados privados, a injeção de dados em tempo real e métodos híbridos que combinam informações públicas e privadas de forma segura.
As fontes dos dados privados mencionados poderão ser um misto de:
- Bases de dados relacionais
- Ficheiros (estruturados e não estruturados)
- APIs
É ainda garantido que o aluno terá acesso a um volume de dados suficiente para a realização do estágio, sejam esses dados internos à empresa ou disponíveis através de fontes de dados externas, caso se verifique que, em alguma área de interesse, os dados internos sejam insuficientes.
Este projeto oferece uma oportunidade única para aplicar conhecimentos avançados de inteligência artificial e machine learning em cenários reais de utilização corporativa. Ao investigar e implementar estas metodologias, o estagiário contribuirá para a inovação e eficiência dos processos internos da empresa, assegurando que as respostas dos assistentes virtuais e outros sistemas baseados em LLMs possam fornecer informações precisas e personalizadas, respeitando as normas de segurança e privacidade.
Objetivo
- Realizar um levantamento e estudo das LLMs mais avançadas disponíveis no mercado.
- Analisar e comparar as capacidades e limitações das diferentes LLMs.
- Investigar métodos para integrar informação privada nas respostas geradas pelas LLMs.
- Desenvolver uma solução protótipo que implemente essas metodologias.
- Testar e avaliar a eficácia da solução desenvolvida em contextos reais.
- Documentar todo o processo de investigação, desenvolvimento e avaliação.
Plano de Trabalhos - Semestre 1
Semana 1-2: Introdução e Orientação:
- Apresentação dos objetivos e expectativas do estágio.
- Introdução aos conceitos fundamentais de Large Language Models (LLMs).
Semana 3-6: Pesquisa e Levantamento de Informação:
- Revisão bibliográfica e estudo de diferentes LLMs, tanto open source quanto proprietários.
- Análise comparativa das características, vantagens e desvantagens dos modelos estudados.
Semana 7-10: Definição dos Requisitos do Projeto:
- Colaboração com a equipa para identificar os requisitos específicos da solução a ser desenvolvida.
- Definição das métricas de sucesso e critérios de avaliação do projeto.
Semana 11-14:Estudo das Técnicas de Integração de Dados Privados:
- Pesquisa sobre métodos para integrar dados privados nas respostas dos LLMs, incluindo fine-tuning, injeção de dados em tempo real e abordagens híbridas.
- Avaliação das vantagens e desvantagens de cada técnica.
Semana 15-18: Planeamento da Arquitetura da Solução:
- Desenho da arquitetura do protótipo que será desenvolvido.
- Discussão sobre a integração com os sistemas internos da empresa.
Semana 19-20: Preparação do Relatório Intermédio:
- Redação de um relatório intermédio do estágio detalhando o trabalho realizado no primeiro semestre, incluindo a pesquisa, definições de requisitos e plano da arquitetura.
- Revisão e submissão do relatório intermédio.
Plano de Trabalhos - Semestre 2
Semana 1-4: Desenvolvimento Inicial do Protótipo:
- Implementação das funcionalidades básicas do protótipo, com foco na integração de dados privados.
- Testes iniciais para verificar a viabilidade das técnicas de integração estudadas.
Semana 5-8: Aperfeiçoamento e Implementação de Funcionalidades Adicionais:
- Refinamento das funcionalidades existentes com base nos testes iniciais.
- Adição de novas funcionalidades conforme necessário.
Semana 9-12: Integração com Sistemas Internos:
- Conexão do protótipo com os sistemas internos da empresa.
- Realização de testes de integração para garantir compatibilidade e segurança.
Semana 13-16: Testes e Avaliação:
- Realização de testes rigorosos em ambiente controlado.
- Recolha de feedback dos utilizadores e stakeholders.
- Análise dos resultados dos testes e identificação de áreas para melhoria.
Semana 17-18: Ajustes Finais:
- Implementação dos ajustes finais no protótipo com base no feedback recebido.
Semana 19-20: Preparação do Relatório Final:
- Elaboração do relatório final de estágio, documentando todo o processo de desenvolvimento, testes, resultados e conclusões.
- Revisão e submissão do relatório final.
Condições
- Bolsa de Investigação (FCT) no valor de 990,98€ (no 1.º semestre o valor é proporcional ao tempo trabalhado).
- Recursos computacionais cedidos pela Present Technologies
- Acesso a formação interna permanente(aulas de inglês semanais, formações técnicas,licença da Udemy)
- Acesso a medidas de bem-estar (e.g. Pilates, atividades de teambuilding,...)
- Designação de um Mentor
- Possibilidade de integração nos quadros da empresa no final do estágio.
Observações
Serão realizadas entrevistas.
Orientador
Nuno Pedro da Silva Rodrigues
nuno.rodrigues@present-technologies.com 📩