Titulo Estágio
011-G-016_2013_CTE2_Analise de Dados sobre plataformas Big Data
Área Tecnológica
Comunicação Telemática
Local do Estágio
AVEIRO
Enquadramento
As análises Big Data utilizam técnicas analíticas avançadas contra conjuntos de dados diversificados e muito grandes que possuem diferentes formatos estruturados/não-estruturados e de streaming/batch, e diferentes tamanhos desde terabytes até zettabytes. Big Data é um termo aplicado a conjuntos de dados cujo tamanho ou o tipo está para além da capacidade de Bases de Dados relacionais em capturar, gerir, e processar os dados com baixa latência. Big Data caracteriza-se por alto - volume, velocidade e variedade. O Big Data surge de sensores, devices, networks, log files, aplicações transacionais, web, e social media - muito do qual gerado em real-time e altamente escalável. A análise de Big Data permite tomar melhores decisões e mais rápidas, utilizando dados que eram anteriormente inacessíveis ou inutilizáveis. Utilizando técnicas avançadas de análise, tais como análise de texto, aprendizagem máquina, análise preditiva, mineração de dados, estatísticas, é possível analisar previamente as fontes de dados inexploradas de forma independente ou em conjunto com dados corporativos existentes para ganhar novos conhecimentos, resultando numa tomada de decisão muito melhor e mais rápida.Considerando a elevada dimensão e diversidade de informação gerida pela PT, e pensando num sistema Big Data que nos permita manipular e correlacionar os diversos tipos de informação existentes, isso abre um leque enorme de possibilidades para analise de dados. Pois, permite a exploração e correlação de várias fontes de informação, potenciando a descoberta de nova informação, útil.
Objetivo
Em suma, o objetivo é aplicar tecnologias de análise da dados tendo com alvo a descoberta de conhecimento escondido. Assim, é necessário elaborar um estudo dos mecanismos de Extração de Conhecimento sobre a plataforma Dig Data (i.e. metodologia associada, design, implementação, analise dos resultados), através das técnicas referidas. Mais concretamente, a fase de implementação caracteriza-se pela aplicação dos algoritmos associados às técnicas, de acordo com o seu propósito, mas numa vertente de computação distribuída, recorrendo a ferramentas tais como, WEKA, Mahout, Madlib, Mallet, R, etc. A informação utilizada para o estudo será proveniente da plataforma/projeto em que esta dissertação será integrada e/ou até mesmo baseado em dados obtidos de redes sociais em que o utilizador está inserido tais como o Facebook e/ou Twitter.
Plano de Trabalhos - Semestre 1
- Estudo e identificação das metodologias e tecnologias mais adequadas à resolução de diversos tipos de problemas tipo sob a informação residente na plataforma Big Data (deteção de limiares, previsão, tendências, etc)
- Design e conceção das melhores abrodagens para cada tipo de problema
- Relatório Intercalar
Plano de Trabalhos - Semestre 2
- Implementação de algoritmos, scripts, etc, que permitam avaliar a eficiência e a praticabilidade das metodologias e tecnologias identificadas
- Análise deresultados obtidos e elaboração de conclusões
- Relatório Final
Condições
Processo de Selecção: Entrevista Inova-Ria - PROGRAMA GENIUS
Os alunos interessados deverão enviar CV para regina@inova-ria.pt ou vera-l-santos@ptinovacao.pt
Observações
Aspetos inovadores :
Utilização de plataformas emergentes baseadas em tecnologias BigData para analise de dados.
Ferramentas a utilizar :
WEKA, Mahout, Madlib, Mallet, R
Referências bibliográficas :
Berry, M., J., A., & Linoff, G., S., (2000). Mastering data mining. New York: Wiley. Edelstein, H., A. (1999). Introduction to data mining and knowledge discovery (3rd ed). Potomac, MD: Two Crows Corp.Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in knowledge discovery & data mining. Cambridge, MA: MIT Press.Han, J., Kamber, M. (2000). Data mining: Concepts and Techniques. New York: Morgan-Kaufman.Westphal, C., Blaxton, T. (1998). Data mining solutions. New York: Wiley.Witten, I. H., & Frank, E. (2000). Data mining. New York: Morgan-Kaufmann.
Orientador
Mário Moreira
moreira@ptinovacao.pt 📩