Propostas sem aluno atribuído - Setembro de 2014

DEI - FCTUC
Gerado a 2024-03-29 14:32:13 (Europe/Lisbon).
Voltar

Titulo Estágio

BigData Data Stores

Áreas de especialidade

Engenharia de Software

Local do Estágio

DEI-FCTUC

Enquadramento

(EN) According to Edd Dumbill, Big data is data that exceeds the processing capacity of conventional database systems. The data is too big, moves too fast, or doesn’t fit the structures of your database architectures. To gain value from this data, you must choose an alternative way to process it. BigData on open platforms concerns using mechanisms to be able to deal with big data using only open software and platforms. This requires development of scalable solutions for loading, managing and analyzing that data.

(PT) De acordo com Edd Dumbill, BigData são dados que excedem a capacidade de processamento dos sistemas de bases de dados convencionais. Os dados são muito grandes, movem-se muito rápido, ou não se encaixam nas arquitecturas de bases de dados actuais. Para obter valor a partir desses dados, você deve escolher uma forma alternativa para processá-lo. BigData em plataformas abertas procura soluçoes utilizando mecanismos para ser capaz de lidar com dados grandes.

Objetivo

Pretendemos criar soluções, a partir de motores de bases de dados noSQL/newSQL open-source, que permitam processar dados bigdata de forma escalável, flexível, segura e robusta. Para tal estudaremos sistemas existentes, escolheremos um conjunto de motores a comparar, criaremos um caso de teste e faremos a comparação experimental das soluções alternativas.

References:
- Sattam Alsubaiee, Yasser Altowim, Hotham Altwaijry, Alexander Behm, Vinayak R. Borkar, Yingyi Bu, Michael J. Carey, Raman Grover, Zachary Heilbron, Young-Seok Kim, Chen Li, Nicola Onose, Pouria Pirzadeh, Rares Vernica, Jian Wen: ASTERIX: An Open Source System for "Big Data" Management and Analysis. PVLDB 5(12):1898-1901 (2012)
- Andrew Cron, Huy L. Nguyen, Aditya G. Parameswaran: Big data. ACM Crossroads (CROSSROADS) 19(1):7-8 (2012)
- Sijie Guo, Jin Xiong, Weiping Wang, Rubao Lee: Mastiff: A MapReduce-based System for Time-Based Big Data Analytics. CLUSTER 2012:72-80
- Michael Stonebraker, Jason Hong: Researchers' big data crisis; understanding design and functionality. Commun. ACM (CACM) 55(2):10-11 (2012)
- Sam Madden: From Databases to Big Data. IEEE Internet Computing (INTERNET) 16(3):4-6 (2012)
- Yanpei Chen, Sara Alspaugh, Randy H. Katz: Interactive Analytical Processing in Big Data Systems: A Cross-Industry Study of MapReduce Workloads. PVLDB 5(12):1802-1813 (2012)
- Huiqi Xu, Zhen Li, Shumin Guo, Keke Chen: CloudVista: Interactive and Economical Visual Cluster Analysis for Big Data in the Cloud.

Plano de Trabalhos - Semestre 1

1. State-of-the-art (BigData, escalabilidade, noSQL); definição de metodologia; Estudo e escolha de benchmarks a utilizar.
2(a). Estudo dos motores existentes no que se refere a escalabilidade, robustez, segurança e outras caracteristicas de interesse;
2(b). Escolha de motores a avaliar e sua classificação.
3. Planeamento dos prototipos, planeamento dos testes a fazer
4. Tese intermedia escrita


Plano de Trabalhos - Semestre 2

5. Implementação do setup experimental. Inclusão das qualidades de escalabilidade e eficiência, segurança, outras caracteristicas de interesse
6. Experimentação
7. Escrita da tese final e de artigo

Plano no tempo:
-------Set-O----Nov-D----Jan-F--Mar-A---May-J
1--------x--------x
2--------x--------x
3--------x--------x
4-----------------x
5-----------------x-------x-------x------x
6-------------------------x-------x------x
7---------------------------------x------x

Condições

estagio cientifico, nao remunerado.


Observações

Pedro Furtado, Jorge Bernardino
Email: pnf@dei.uc.pt
Tel: 910400254

Orientador

Pedro Furtado, Jorge Bernardino
pnf@dei.uc.pt 📩