Titulo Estágio
Manipulação de Big Data com Apache Spark SQL (PySpark)
Local do Estágio
Altice Labs (Remoto ou Presencial, à escolha do aluno) e DEI
Enquadramento
A presente proposta integra-se nos objetivos do departamento de Big Data & Data Monetization da Altice Labs (ALB), nomeadamente nas atividades do grupo de Data Enginneering. Em particular, esta proposta enquadra-se numa linha de trabalho da Altice Labs dedicada à ingestão, transformação e exploração de grandes quantidades de dados (Big Data) para criação de modelos de AI/ML.
O aluno será enquadrado diretamente na equipa de Data Enginneering / Data Science do departamento de Big Data & Data Monetization da ALB, tendo acesso a dados e a use-cases reais. O projeto de mestrado terá um orientador científico do DEI e um orientador empresarial da Altice Labs.
Objetivo
O principal objetivo desta tese é a ingestão, transformação e exploração de dados utilizando a tecnologia Spark SQL (Dataframes), e em particular a versão baseada em Python (PySpark). A tecnologia Spark SQL é uma evolução (abstração) do Spark Core para dados estruturados ou semi-estruturados estando a ser adotada para as plataformas de backend de Data Monetization da Altice Labs. Os dados manipulados no âmbito deste projeto de mestrado serão consumidos/utilizados para o treino de modelos de ML/AI na área de profiling de cliente.
Plano de Trabalhos - Semestre 1
Fase 1 – Revisão da bibliografia e estado da arte;
Fase 2 – Levantamento dos use-cases de manipulação de dados a implementar;
Fase 3 – Exploração dos dados de cliente existentes de um operador do grupo Altice;
Fase 4 – Aquisição de conhecimento e familiarização com PySpark;
Plano de Trabalhos - Semestre 2
Fase 5 – Implementação dos use-cases identificados anteriormente;
Fase 6 – Testes/Validação e experimentação;
Fase 7 – Escrita da Dissertação;
Fase 8 – Escrita de um artigo científico.
Condições
Para alunos com média de licenciatura igual ou superior a 14 valores, será atribuída uma bolsa durante a execução do projeto de mestrado. Adicionalmente, o aluno terá acesso à infraestrutura computacional da empresa, ao know-how e experiência da equipa de Data Enginneering/Data Science, às tecnologias/plataformas utilizadas no grupo, bem como aos dados necessários para a execução do projeto.
Observações
O projeto de estágio será enquadrado num use-case real e em ambiente pré-produtivo.
Orientador
Pedro Miguel Naia Neves
pedro-m-neves@alticelabs.com 📩