Titulo Estágio
2020_N003 Processamento e consolidação de informação digitalizada de clientes
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
Altice Labs - Laboratório de Cognitive @ UC (Coimbra)
Enquadramento
Área, palavras-chave:
Data Science, Processamento de imagem, OCR, Ontologias
Nos processos de venda são digitalizados documentos de identificação que ficam associados ao processo, mas cujos dados de identificação não são recolhidos de forma automática para os sistemas de CRM. Estes dados são muito relevantes para garantir a melhor experiência do Cliente, apoiando também ações comerciais futuras.
Referências Bibliográficas, apontadores:
https://searchcontentmanagement.techtarget.com/definition/OCR-optical-character-recognition
Objetivo
Identificar entre os vários tipos de documentos os que são documentos de identificação pessoal (cartão de cidadão, bilhete de identidade, passaporte). Para cada tipo de documento identificado maximizar a recolha de dados, aferindo a sua qualidade a nível do desempenho e viabilidade de implementação em milhares de processos. Os processos implementados deverão acautelar as condicionantes de tratamento de informação pessoal decorrentes do RGPD.
Bases de informação disponíveis: repositório digitalizado de documentos de identificação associados a contratos
Aspetos inovadores:
Implementação de mecanismos de aprendizagem automática e de descoberta de tipos de documentos de identificação que permitirá extrair dados de identificação pessoal para complementar a ficha do Cliente. Importância de identificar e implementar algoritmos de processamento de imagem e OCR adequados a cada tipo de documento. Articular o processamento da informação com as ontologias adequadas à diversidade de informação recolhida.
Tópicos tecnicamente relevantes da proposta:
• Big Data
• Processamentos de imagem
• Optical Character Recognition (OCR)
• Ontologias
Plano de Trabalhos - Semestre 1
1º. Semestre – Dedicação em tempo parcial, correspondendo a 16 horas semanais (20 semanas).
1. Estudo do estado da arte na seleção e reconhecimento de texto em imagem (S1-S10)
2. Processos de caracterização base dos tipos de documentos de identificação (S5-S15)
3. Análise Exploratória de dados e protótipo inicial de seleção e reconhecimento dos tipos de identificação (S10-S20)
4. Relatório intermédio (S18-S20)
Plano de Trabalhos - Semestre 2
2º. Semestre - Dedicação em tempo integral, correspondendo a 40 horas semanais (20 semanas).
5. Estudo de estado da arte de processos e algoritmos de reconhecimento de texto em imagem (S21-S25)
6. Desenvolvimento e refinamento de solução inteligente para identificação dos tipos de documentos de identificação e criação de ontologias associadas (S21-S35)
7. Validação da solução desenvolvida (S36-S38)
8. Elaboração de dissertação (S1-S40)
Condições
Integração de uma Bolsa de Investigação - Programa GENIUS /Inova-Ria - durante a realização do projeto de Dissertação - Integração numa equipa de I&D da Empresa Altice Labs .
Os alunos interessados deverão enviar para genius@inova-ria.pt ao cc Dra Regina Maia Sacchetti (963618710).
• Curriculum Vitae;
• Disciplinas realizadas até ao momento com médias ; simples documento eletrónico, que poderá obter no portal académico .
Processo de Seleção: Entrevista Inova-Ria - PROGRAMA GENIUS na qual fará parte o Orientador do projeto de forma a eslarecer a temática envolvida.
Tipologia de Bolsa: Bolsa de Investigação com o valor da Bolsa de 798€
• média prevista de 13,5 - 14 valores (média linear entre licenciatura e mestrado);
• Indicação de áreas de interesse.
Tipologia da Bolsa: Bolsa de Investigação (Bolsa de Iniciação Científica).
Valor a Bolsa 798€ liquidos/Mês => empresa >= 3 dias/semana
Duração da Bolsa: 10 meses
Observações
Perfil do candidato mais adequado:
Pessoa dinâmica e autónoma, com vontade de aprender. Comunicativo e com espírito de equipa. Bons conhecimentos de bases de dados e modelização de dados e experiência em linguagens de programação (Python, …).
Capacidade e vontade de aprender tecnologias Big Data (Hadoop, PySpark ou similar), Data Science (pandas, scikit-learn, etc) e tecnologias de processamento de imagem e OCR
Orientador
Luis Cortesão
luis-m-cortesao@alticelabs.com 📩