Propostas com aluno atribuído

DEI - FCTUC
Gerado a 2024-04-29 05:38:25 (Europe/Lisbon).
Voltar

Titulo Estágio

Machine learning for stopping the bad guys

Áreas de especialidade

Engenharia de Software

Local do Estágio

Lisboa ou Coimbra

Enquadramento

A Feedzai é uma empresa especializada no uso de técnicas avançadas de machine learning e big data para detecção e prevenção de fraude em comércio electrónico. Só no último ano foram processadas mais de 16 mil milhões de transações na plataforma Feedzai. Uma das peças centrais dos produtos da Feedzai é a utilização de modelos de Machine Learning para classificar as transacções em duas classes: fraude ou legítimo.

É nossa intenção ter um conjunto de regras e modelos de machine learning que comprovadamente consigam uma qualidade de detecção de fraude elevada, em diferentes cenários e em clientes completamente externos aos dados de treino. Para além disso, queremos ter um sistema e metodologia não só para construir estes modelos com novos dados, mas também para evoluir automaticamente o mix de modelos e regras de um cenário inicial, completamete pre-baked para uma situação em que temos cada vez mais dados marcados para um cliente específico.

Objetivo

O principal objectivo deste estágio é criar um conjunto de regras e modelos de machine learning, treinados com diferentes conjuntos de dados, e que sejam aplicáveis a diversos cenários completamente dispares dos utilizados em treino. Isto permitirá à Feedzai um aumento substancial do desempenho dos seus modelos de detecção utilizados out-of-the-box em novos clientes, o que implicará menores custos de implementação e integração, maior rapidez e maior valor. É necessário criar uma metodologia sustentada e reprodutível para a criação destes
modelos pre-baked para que a Feedzai a possa aplicar com novos dados e a novos clientes.
Uma parte integrante deste estágio será a construção de regras e modelos de classificação reais, optimização da sua precisão e taxa de detecção e a avaliação da respectiva performance.
Em termos tecnológicos, as ferramentas de Data Science e data processing da Feedzai estão implementadas em Scala e em Java. É também fundamental a área de análise e tratamento de dados, a qual depende muitas vezes da utilização de SQL ou de ferramentas do ecossistema científico da linguagem Python, como o iPython, Pandas e Scikit-Learn. Ao mesmo tempo, todo o trabalho de Data Science depende de conhecimentos de estatística e de Machine Learning.
Os candidatos a este estágio deverão ter conhecimentos fortes de:
 Java (e, opcionalmente, Scala)
 Python (de preferência com iPython, Pandas e Scikit-Learn)
 SQL
 Estatística, Data Mining e Machine Learning

Plano de Trabalhos - Semestre 1

Objectivos:
Durante este semestre existem dois objectivos principais:
- Integrar o estagiário na estrutura das ferramentas de Data Science da Feedzai, da metodologia e método de processamento de dados, treino de modelos e teste destes.
- Definição da metodologia para construção e evolução de Pre-Baked Intelligence. Daqui resultarão alguns testes e resultados da aplicação de regras e modelos de Machine Learning.
Abordagem:
O trabalho que propomos envolve diversas componentes de Data Science que, no seu todo, são bastante complexas e requerem uma excelente capacidade analítica e de organização. Muitas das tarefas associadas à construção e execução de regras, feature engineering e treino e teste de modelos envolvem diversas ferramentas, muitas das quais construídas pela própria Feedzai. Para garantir o sucesso do projeto é importante garantir que o estagiário conhece e compreende a nossa metodologia de Data Science, os nossos dados e a estrutura interna das nossas ferramentas, como funcionam, e como podem ser estendidas.
Este semestre tem dois objectivos principais. Por um lado, integrar o estagiário no funcionamento da nossa metodologia e ferramentas de Data Science. Para isso ser-lhe-á pedido que numa primeira fase estude os
dados, as regras e as features que a Feedzai utiliza em diferentes cenários e também que estude as ferramentas e estenda modelos existentes com novos atributos simples. Assim, pretende-se que no final do primeiro semestre esteja em condições de poder implementar as novas regras e modelos necessários. Ao mesmo tempo, durante este semestre, será desenvolvida uma metodologia para construção de ensembles de Pre-Baked Intelligence, com alguns pequenos testes exploratórios feitos sobre os dados.
Será adoptada uma abordagem iterativa de desenvolvimento, baseada em Scrum, em que em cada ciclo de desenvolvimento (duas a três semanas) serão definidas experiências ou funcionalidades a implementar,
assim como procedimentos de avaliação. Existirão reuniões semanais de acompanhamento do trabalho.
Atividades a desenvolver durante o semestre:
- Integração na empresa e familiarização com os produtos da Feedzai e as suas ferramentas e metodologias de Data Science.
- Estudo detalhado dos dados e dos modelos e regras que a Feedzai utiliza em diferentes clientes
- Análise dos dados disponíveis e desenvolvimento de novas regras simples e modelos com novos atributos de complexidade simples/média
- Definição e documentação da metodologia proposta
- Escrita do relatório intermédio de estágio

Plano de Trabalhos - Semestre 2

Objectivo:
O principal objectivo deste semestre é implementar as regras e modelos de machine learning, definindo um mix que permita, comprovadamente, obter uma boa detecção de fraude em diferentes cenários externos ao
treino.
Abordagem:
Será adoptada uma abordagem iterativa de desenvolvimento, baseada em Scrum, em que em cada ciclo de desenvolvimento (duas a três semanas) serão definidas experiências ou funcionalidades a implementar,
assim como procedimentos de avaliação. Existirão reuniões semanais de acompanhamento do trabalho.
Atividades a desenvolver durante o semestre:
- Implementação das regras e das transformações aos dados para feature engineering
- Treino de modelos e optimização dos parâmetros dos algoritmos e de sampling dos dados
- Implementação e teste de diferentes método de conjunção de regras e modelos treinados com diferentes dados e atributos;
- Avaliação e optimização da precisão e taxa de detecção do ensemble de regras e modelos
- Escrita do relatório de estágio

Condições

Estágio Remunerado

Observações

É possível encontrar mais informação sobre o produto e a empresa no seguinte link:
http://www.feedzai.com
Devido ao estagiário ir trabalhar com dados bastante sensíveis em termos de segurança (grandes volumes de dados reais, de transações reais), existem questões de confidencialidade que terão de ser asseguradas,
nomeadamente a nível dos dados e instanciação de valores configurados. No entanto não se antevê que tal possa afectar negativamente quer a escrita quer a apresentação final do trabalho.

Orientador

Eng. António Alegria
antonio.alegria@feedzai.com 📩