Propostas para selecção dos alunos

DEI - FCTUC
Gerado a 2024-05-19 14:16:20 (Europe/Lisbon).
Voltar

Titulo Estágio

Feature Engineering Operators for Machine Learning

Local do Estágio

Instituto Pedro Nunes, Edifício D, Sala 2.22 - Rua Pedro Nunes, 3030-199 Coimbra/Remote

Enquadramento

A Stratio Automotive opera na indústria automóvel e dispõe de mecanismos de aquisição, monitorização e análise de dados provenientes de diversos sensores existentes em veículos de diversas frotas e fabricantes automóveis a nível mundial. A Stratio possui ferramentas capazes de detectar e prever anomalias e falhas em veículos automóveis recorrendo para isso a algoritmos de machine learning capazes de analisar dados provenientes de centenas de sensores do veículo e detetar comportamentos anómalos ou situações de risco que ponham em causa o normal funcionamento do veículo, permitindo assim otimizar custos na sua manutenção ou gestão de operações.

O fluxo de dados compreende ainda três etapas, cada uma com uma responsabilidade distinta na gestão e tratamento de dados. Inicialmente a aquisição de dados é feita com um dispositivo proprietário, DataBox®, que é instalado no veículo onde recolhe e envia em tempo real milhões de leituras de sensores por dia de diferentes componentes como bateria, motor, transmissão, travões, suspensão etc. De seguida estes dados são analisados e persistidos para que posteriormente sejam usados e analisados pelos modelos de machine learning proprietários, Cortex®, da Stratio. Estes resultados são depois visualizados em uma plataforma cliente e são também acionados alertas e notificações sobre todas as ocorrências identificadas.

A Stratio possui uma equipa de data scientists responsáveis pela criação destes modelos que analisam e treinam diariamente novos algoritmos que após várias fases de treino e validação necessitam de ser produzidos de forma a serem utilizados numa maior escala e propagados para todos os veículos existentes. Além disso, as fases de aquisição de dados para treino, validação e produção são diferentes uma vez que a Stratio processa dados em tempo real, necessitando assim que estes modelos sejam adequados a essa realidade. Os próprios outputs gerados necessitam também de ser tratados de forma a poderem serem mais tarde visualizados nas respectivas aplicações clientes.

Objetivo

Com este estágio pretende-se a criação de uma plataforma de operadores de feature engineering para modelos de Machine Learning. É necessário para isso encontrar soluções eficientes, escaláveis e que permitam proporcionar mecanismos que permitam reutilizar e computar features através de dados em bruto. Pretende-se assim a criação de uma plataforma capaz de traduzir dados em bruto em features, usando para isso expressões com operadores lógicos básicos que se traduzem em pesquisas às múltiplas base de dados Stratio. Este processo pretende abstrair a criação de datasets e transformação de dados em bruto em features num processo simples, sistemático e determinístico. As equipas de Data Scientists passam assim a contar com uma plataforma que traduz expressões simples em features mediante um conjunto pré-definido de regras. O volume de dados com que estes modelos de Machine Learning trabalham chega a atingir largamente as centenas de milhões de leituras de sensores por execução, e a cada segundo novos dados são recolhidos em real-time, o que representa um desafio a esta transformação.

Objetivos genéricos:

- Investigar, desenhar e implementar uma solução completa e autónoma para a criação de operadores de feature engineering de modelos de Machine Learning;
- Criar uma framework base que permita abstrair os conceitos de feature engineering;
- Traduzir expressões com operadores lógicos básicos em pesquisas as base de dados e DataLake da Stratio;
- Criar uma camada de abstração para identificar, computar e criar regras a serem usadas no processo de feature engineering;
- Automatizar as pipelines de processamento de dados usando mecanismos de Continuous Integration (CI) e Continuous Delivery (CD);
- Integrar a solução encontrada com a arquitetura existente Stratio AI Hefesto (Sistema de feature engineering proprietário).

Plano de Trabalhos - Semestre 1

- T1. Análise do estado da arte - Análise do respetivo estado de arte que compreende investigação de tecnologias usadas, ferramentas, workflows e padrões de desenho a usar;

- T2. Análise de requisitos - Levantamento de requisitos funcionais e não funcionais aos quais a solução deve corresponder.

Plano de Trabalhos - Semestre 2

- T3. Desenho da arquitetura - Desenho da arquitetura, respetivos componentes, tecnologias e ferramentas a usar e a forma como estes se interligam;

- T4. Implementação - Implementação da solução encontrada;

- T5. Validação - Validação, testes e recolha de métricas em função dos requisitos identificados;

- T6. Documentação - Escrita da documentação de todo o trabalho realizado;

Condições

- Ao Estágio está associado um Subsídio de Alimentação, correspondente a 6.83€/dia efetivamente trabalhado.

- Horário: 9h00 - 18h00, flexível.

- Estágio com possibilidade de ser realizado em regime full remote

Observações

Tecnologias utilizadas: Python, Featuretools, .NET C#, Apache Parquet, Apache Spark, BigData & Databases, Docker, Kubernetes e Jenkins.

Conceitos: Programming Design Patterns, Microservices Architectures, BigData & Databases, Machine Learning.

Orientador

Pedro Salgado
pedrosalgado@stratioautomotive.com 📩