Titulo Estágio
2020_N002 Inferência de categoria para enriquecimento de EPG
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
Altice Labs - Laboratório de Cognitive @ UC (Coimbra)
Enquadramento
Área, palavras-chave:
Data Science, IPTV, Text mining, Natural Language Undertanding (NLU).
A visualização de programas de televisão permite enriquecer o perfil de consumo dos clientes. Parte dos programas disponíveis no EPG (Eletronic Program Guide) têm uma classificação de género mas há outra parte que não tem essa classificação. Assim pretende-se, através da descrição (sinopse) do programa, inferir a sua classificação (género), enriquecendo o perfil de consumo, permitindo melhorar a apresentação de conteúdos relevantes associados ao perfil. Este projeto vai capitalizar a experiência em iniciativas anteriores, que permitiram avaliar a adequação de um conjunto de tecnologias para estes fins.
Objetivo
Inferir de forma automática o género com base na sinopse do programa. Criação da base ontológica para suportar o processo de classificação. Aplicar a abordagem a todos os programas, complementando a informação de género existente.
Bases de informação disponíveis: EPG (histórico), informação de sinopses associadas a todos os programas e repositórios online com informação de programas
Aspetos inovadores:
Implementação de mecanismos de aprendizagem automática e text mining para classificação automática de programas a partir de conjuntos de dados grandes e diversos que nos permitirá complementar o perfil de consumo. Importância de identificar e implementar algoritmos de classificação e NLU a partir das sinopses dos programas.
Tópicos tecnicamente relevantes da proposta:
• Big Data
• Text mining
• Ontologias
• Natural Language Understanding
• Algoritmos de classificação
Plano de Trabalhos - Semestre 1
1º. Semestre – Dedicação em tempo parcial, correspondendo a 16 horas semanais (20 semanas).
1. Estudo do estado da arte na classificação de programas (S1-S10)
2. Processos de caracterização base dos programas, tratamento de dados e criação de ontologias (S5-S15)
3. Análise Exploratória de dados (EPG, sinopses e informação online de programas) e protótipo inicial de classificação de programas (S10-S20)
4. Relatório intermédio (S18-S20)
Plano de Trabalhos - Semestre 2
2º. Semestre - Dedicação em tempo integral, correspondendo a 40 horas semanais (20 semanas).
5. Estudo de estado da arte de processos e algoritmos de classificação (S21-S25)
6. Desenvolvimento e refinamento de solução inteligente para classificação de programas (S21-S35)
7. Validação da solução desenvolvida (S36-S38)
8. Elaboração de dissertação (S1-S40)
Condições
Integração de uma Bolsa de Investigação - Programa GENIUS /Inova-Ria - durante a realização do projeto de Dissertação - Integração numa equipa de I&D da Empresa Altice Labs .
Os alunos interessados deverão enviar para genius@inova-ria.pt ao cc Dra Regina Maia Sacchetti (963618710).
• Curriculum Vitae;
• Disciplinas realizadas até ao momento com médias ; simples documento eletrónico, que poderá obter no portal académico .
Processo de Seleção: Entrevista Inova-Ria - PROGRAMA GENIUS na qual fará parte o Orientador do projeto de forma a eslarecer a temática envolvida.
Tipologia de Bolsa: Bolsa de Investigação com o valor da Bolsa de 798€
• média prevista de 13,5 - 14 valores (média linear entre licenciatura e mestrado);
• Indicação de áreas de interesse.
Tipologia da Bolsa: Bolsa de Investigação (Bolsa de Iniciação Científica).
Valor a Bolsa 798€ liquidos/Mês => empresa >= 3 dias/semana
Duração da Bolsa: 10 meses
Observações
Perfil do candidato mais adequado:
Pessoa dinâmica e autónoma, com vontade de aprender. Comunicativo e com espírito de equipa. Bons conhecimentos de bases de dados e modelização de dados, desenvolvimento em sistemas Linux e experiência em linguagens de programação (Python, …). Capacidade e vontade de aprender tecnologias Big Data (Hadoop, PySpark ou similar) e Data Science (pandas, scikit-learn, etc), Text Mining, Natural Language Undertanding.
Orientador
Luis Cortesão
luis-m-cortesao@alticelabs.com 📩