Titulo Estágio
Benchmark para análise de drift noTwitter
Área Tecnológica
Reconhecimento de Padrões
Local do Estágio
DEI - Departamento de Engenharia Informática
Enquadramento
As mensagens enviadas pelo Twitter (tweets) consistem em conjuntos de até 140 caracteres classificados com uma etiqueta (hashtag). A utilização crescente do Twitter e o volume de mensagens trocadas, potencia a sua utilização como sistema de recomendação ou de identificação de tendências. Genericamente, a deteção de tendências consiste na identificação de variações de contexto (drift) ao longo do tempo, podendo estas ser suaves e de difícil detecção ou abruptas.
Neste trabalho pretende-se definir um modelo de geração artificial de mensagens de Twitter onde estejam presentes vários tipos de drift, com base num conjunto de parâmetros inicial.
Objetivo
Os principais objectivos da tese consistem em:
1) Identificar os parâmetros que deverão ser considerados na geração de mensagens de Twitter.
2) Desenvolver um protótipo para geração automatica de datasets de treino e teste, com base em parâmetros iniciais.
3) Testar os datasets em modelos de detecção de drift para o Twitter.
Plano de Trabalhos - Semestre 1
1) Revisão do estado da arte e identificação das características relativas ao funcionamento do Twitter Setembro 2013
2) Identificar os parâmetros que deverão ser considerados para a geração das mensagens do Twitter e para a definição de drift. Novembro 2013
3) Definir os requisitos funcionais e a arquitetura do protótipo Dez 2013
4) Desenvolver o protótipo Março 2014
Plano de Trabalhos - Semestre 2
1) Testar o protótipo com datasets gerados artificialmente Maio 2014
2) Escrever relatórios e a tese Junho 2014
Condições
Conhecimentos sólidos de programação (Java, Python, C/C++)
Outros conhecimentos específicos em machine learning e reconhecimento de padrões.
Orientador
Bernardete Ribeiro e Mário Antunes
bribeiro@dei.uc.pt 📩