Propostas sem aluno

DEI - FCTUC
Gerado a 2024-05-17 10:57:15 (Europe/Lisbon).
Voltar

Titulo Estágio

Manipulação de Big Data com Apache Spark SQL (PySpark)

Local do Estágio

Altice Labs (Remoto ou Presencial, à escolha do aluno) e DEI

Enquadramento

A presente proposta integra-se nos objetivos do departamento de Big Data & Data Monetization da Altice Labs (ALB), nomeadamente nas atividades do grupo de Data Enginneering. Em particular, esta proposta enquadra-se numa linha de trabalho da Altice Labs dedicada à ingestão, transformação e exploração de grandes quantidades de dados (Big Data) para criação de modelos de AI/ML.
O aluno será enquadrado diretamente na equipa de Data Enginneering / Data Science do departamento de Big Data & Data Monetization da ALB, tendo acesso a dados e a use-cases reais. O projeto de mestrado terá um orientador científico do DEI e um orientador empresarial da Altice Labs.

Objetivo

O principal objetivo desta tese é a ingestão, transformação e exploração de dados utilizando a tecnologia Spark SQL (Dataframes), e em particular a versão baseada em Python (PySpark). A tecnologia Spark SQL é uma evolução (abstração) do Spark Core para dados estruturados ou semi-estruturados estando a ser adotada para as plataformas de backend de Data Monetization da Altice Labs. Os dados manipulados no âmbito deste projeto de mestrado serão consumidos/utilizados para o treino de modelos de ML/AI na área de profiling de cliente.

Plano de Trabalhos - Semestre 1

Fase 1 – Revisão da bibliografia e estado da arte;
Fase 2 – Levantamento dos use-cases de manipulação de dados a implementar;
Fase 3 – Exploração dos dados de cliente existentes de um operador do grupo Altice;
Fase 4 – Aquisição de conhecimento e familiarização com PySpark;

Plano de Trabalhos - Semestre 2

Fase 5 – Implementação dos use-cases identificados anteriormente;
Fase 6 – Testes/Validação e experimentação;
Fase 7 – Escrita da Dissertação;
Fase 8 – Escrita de um artigo científico.

Condições

Para alunos com média de licenciatura igual ou superior a 14 valores, será atribuída uma bolsa durante a execução do projeto de mestrado. Adicionalmente, o aluno terá acesso à infraestrutura computacional da empresa, ao know-how e experiência da equipa de Data Enginneering/Data Science, às tecnologias/plataformas utilizadas no grupo, bem como aos dados necessários para a execução do projeto.

Observações

O projeto de estágio será enquadrado num use-case real e em ambiente pré-produtivo.

Orientador

Pedro Miguel Naia Neves
pedro-m-neves@alticelabs.com 📩