Titulo Estágio
Big Data applied to Knowledge Extraction
Área Tecnológica
Sistemas Móvies e Ubíquos
Local do Estágio
Aveiro
Enquadramento
Nos dias de hoje, a quantidade de informação a que cada indivíduo ou instituição acedem e/ou têm em sua posse, cresce exponencialmente.
O preço do gigabyte está também cada vez mais acessível, permitindo assim a configuração e manutenção de sistemas commodity com dezenas de terabytes de espaço disponível. Logo, o problema que antes se punha a nível de capacidade de armazenamento já não se verifica.
No entanto, e paralelamente ao aumento do volume de dados, multiplica-se também a dificuldade em organizar e posteriormente aceder à informação, limitando desta forma o poder conferido pela mesma.
Este projecto visa o desenvolvimento de módulos ou componentes de importação, processamento e catalogação de informação textual (PDF, DOC, PPT, HTML, etc.), independentemente do formato digital em que se insere, de forma a popular uma “base de dados” que, por sua vez alimentará um serviço de pesquisa em regime full-text search e contextual search de toda a informação disponível.
Pretende-se também que se investiguem técnicas de armazenamento de última geração, tais como NoSQL ou Hadoop, de forma a potenciar o acesso ubíquo à informação processada e claro, à informação em estado bruto, ou sejam os ficheiros que serviram de input.
Objetivo
- Obtenção e documentação de know-how nas áreas de statistical natural language processing, document classification, clustering, topic modeling e information extraction;
- Conceptualização de um modelo de representação e desenvolvimento do mecanismo de armazenamento de informação de contexto;
- Definição da interface de serviços com o exterior e desenvolvimento de uma framework de integração de serviços de acesso (entrada de informação de contexto proveniente das fontes de informação em estado bruto);
- Implementação de um mecanismo de pesquisa com base na informação de contexto.
Plano de Trabalhos - Semestre 1
T1 – Familiarização com os vários conceitos relacionados com aplicações de machine learning sobre texto;
T2 – Análise e Especificação dos Requisitos do Sistema e Definição da Arquitectura da Solução.
Plano de Trabalhos - Semestre 2
T3 – Desenvolvimento do sistema especificado;
T4 – Ensaio e Testes do Sistema desenvolvido;
T5 – Redacção de Documentação compatível com os procedimentos da Ubiwhere, sobre todos os passos anteriores.
Condições
Perfil requerido do candidato
• Espírito auto-didacta e crítico;
• Conhecimentos em Java e Linux;
• Enorme motivação e disponibilidade;
• Fluência em Inglês.
Orientador
Paulo Pires
pjpires@ubiwhere.com 📩