Titulo Estágio
2024_25_N47_Perfilagem assistida por IA para recomendação de conteúdos audiovisuais e de publicidade
Áreas de especialidade
Engenharia de Software
Engenharia de Software
Local do Estágio
Altice Labs
Enquadramento
A rapidez e facilidade com que são hoje criados novos conteúdos audiovisuais, associadas à perceção cada vez maior de imprevisibilidade da sua disponibilização, e à existência de múltiplas plataformas para o seu visionamento de forma ubíqua, aliadas ao "paradigma de escolha" pelos consumidores finais, colocam um forte desafio na forma como os Media Delivery Operators disponibilizam tais conteúdos.
Neste sentido, pretende-se encontrar soluções inovadoras que permitam aperfeiçoar e enriquecer a catalogação automática e online de todo o tipo de conteúdos (live e não-live), aliadas a uma perfilagem automática e precisa dos consumidores, para que a recomendação, pesquisa, descoberta e visionamento de conteúdos multimédia sejam os mais adequados aos desejos e preferências imediatos dos consumidores finais. Ao mesmo tempo,pretende-se proporcionar uma experiência de visualização única, personalizada, intuitiva e rica, sem que para isso se coloque o ónus no consumidor.
O resultado deste projeto tem o potencial de disromper a forma como hoje é feito o visionamento de conteúdos audiovisuais na TV.
O título “Perfilagem assistida por IA para recomendação de conteúdos audiovisuais e de publicidade” refere-se a uma solução que empregua IA generativa e técnicas de análise e processamento de linguagem natural para realizar sobre conteúdos multimédia aquilo que chamámos de “perfilagem”.
Este processo de perfilagem é responsável pela identificação e extração ou criação de metadados por análise das transcrições áudio dos conteúdos multimédia (ou excertos desses conteúdos), e que incluirá as entidades (NER) e características que possam depois ser usadas para classificar esses mesmos conteúdos (ou segmentos de conteúdos) e enriquecer os metadados que já existem em catálogo.
Quando cruzamos os intervalos (excertos) dos conteúdos que um consumidor assistiu ou está a assistir, com as características e entidades recolhidas durante a perfilagem dos conteúdos, podemos constuir e evoluir dinamicamente o perfil de consumo do consumidor.
Cruzando as características do perfil do utilizador com as os metadados de perfilagem dos conteúdos que existem em catálogo, é possível enriquecer a experiência televisiva através de outras integrações futuras, tais como a construção de soluções de recomendações e de pesquisa ultradetalhadas ou ainda a inserção de publicidade contextualizada com o conteúdo que está a ser visualizado ao mesmo tempo que alinhada com os gostos do consumidor (isto é, seria possível alinhar os gostos individuais com o timing apropriado) e trazer assim valor para outros players.
A proposta de estágio foca-se sobretudo na primeira fase, onde se pretente constuir o tal motor de perfilagem automática dos conteúdos multimédia.
Para o desenvolvimento serão disponibilizadas APIs contendo dados reais produtivos (para alguns canais pré-selecionados), nomeadamente:
- informação de EPG (electronic program guide – que inclui multiplos metadados, tais como o título do programa, sinópse, ano, imdb ID, categoria(s), elenco, horário, canal, …).
- transcrições textuais dos áudios dos conteúdos a analisar (MediaDive) em formato SRT, VTT ou TXT.
- informação do histórico de consumos para cada device (podemos considerar aqui como consumidor)
Para efeitos de validação, não existe um definição concreta. Mas genericamente:
1. Serão identificados alguns consumidores em concreto de acordo com o seu perfil hipotético (por exemplo, um benfiquista que veja vários jogos)
2. Serão identificados alguns conteúdos alinhados (ou que tenham segmentos) com o contexto (por exemplo, jogo porto-benfica, entrevista treinados benfica, telejornal (que tem uma peça sobre o benfica)
3. Serão identificados outros conteúdos não alinhados com o contexto (jogo sporting-porto, televendas, publicidade, filmes/séries, novelas…)
4. Serão feitas invocações à API do protótipo para obtenção dos metadados de perfil dos conteúdos e cruzar com as pré-classificações de cada conteúdo
5. Serão feitas invocações à API do protótipo para obter lista de conteúdos que contenham algumas características concretas (exemplo, futebol + benfica) e cruzar com a lista de conteúdos alinhados (ou segmentos de conteúdos)
Objetivo
Este projeto tem por objetivo a exploração tecnológica, a definição e documentação da arquitetura e dos diversos interfaces do sistema e ainda a implementação de um protótipo funcional, que:
1- permita, de forma eficiente, inferir e extrair automaticamente características de perfilagem de conteúdos e/ou segmentos de conteúdos
audiovisuais;
2- recorra a processamento de linguagem natural e algoritmos de IA para análise e identificação das características de perfilagem a partir da transcrição áudio dos conteúdos e/ou segmentos / clips, de modo a garantir uma contextualização final e temporal do conteúdo audiovisual;
3- permita extrair, conjuntamente com as características de perfilagem, as entidades NER (Named Entity Recognition).
4- tenha em consideração não apenas os metadados dos conteúdos pré-existentes (EPG) mas também a informação temporal dos segmentos
/ clips de conteúdo visualizados pelo consumidor;
5- recorra a algorítmos de IA generativa para a criação de metadados complementares para enriquecimento dos pré-existentes,
nomeadamente, para criação de sinópses automáticas, determinar o género, temática e sub-temáticas, etc;
6- integre com o ecossistema MediaDive para a obtenção de transcrição áudio dos conteúdo, transcrição essa gerada automaticamente por IA,
promovendo sinergias entre sistemas, a eficiência e a escalabilidade na obtenção das transcrições necessárias para análise.
Durante a fase de exploração tecnológica deverá ser analisada a viabilidade da utilização de base-de-dados vetoriais para indexação dos conteúdos no tempo por diferentes dimensões, visando a rapidez de acesso aos metadados gerados bem como a pesquisa por diferentes dimensões podendo estas, estar ou não, indentificadas e/ou indexadas à partida.
Deve ser disponibilizada uma API REST, devidamente documentada (OpenAPI/Swagger) de modo a permitir a consulta dos metadados das
características de perfilagem e entidades (no formato JSON) de uma dada transcrição áudio (correspondente a um conteúdo ou segmento de
conteúdo).
Estes metadados poderão vir a ser consumidos para:
- criação ou atualização de perfil de cliente consoante os segmentos ou conteúdos consumidos, cruzando as características do seu perfil com
as encontradas nesses segmentos, para que seja possível determinar com enorme detalhe e de forma dinâmica as diferentes propensões
ou inclinações que este possa ter relativamente a diferentes dimensões (política, religiosa, desportiva, musical, gastronómica...);
- alimentar sistemas de pesquisa e descoberta avançada de conteúdos de modo a facilitar a navegação e a descoberta de novos conteúdos
relevantes para o consumidor e elevar a sua percepção de valor relativamente aos conteúdos em catálogo.
- enriquecimento de metadados de catálogo com base nas entidades NER, tais como complemento da informação de EPG pré-existente com
metadados como género, temática(s) e sub-temática(s), sinópse, etc.
A solução deve endereçar os seguintes temas considerados críticos ou estratégicos:
- o processamento contínuo de um fluxo de programas/conteúdos, garantindo assim uma análise que pode ser aplicada tanto a conteúdos
live como on-demand;
- fatores de escalabilidade do sistema relativamente ao número de conteúdos analisados, número de queries para obtenção de
características e também relativamente ao número de características inferidas, contemplando para tal a reutilização de processamentos já
realizados e comuns entre programas/conteúdos e entre consumidores bem como a utilização de outras abordagens (por exemplo, a
consulta de legendagem pré-existente como fonte de transcrição);
- tempos de resposta e acesso reduzidos compatíveis com uma UX fluída, de modo a garantir uma experiência de utilizador otimizada;
- garantir a interoperabilidade entre este sistema e sistemas 3rd party responsáveis pela produção das transcrições áudio e cujo
funcionamento é assíncrono;
- a volumetria da storage necessária para a persistência e indexação dos conteúdos no tempo, bem como deverá tem consideração a
reciclagem automática da storage alocada a conteúdos que entretanto sairam da janela máxima de visualização (7d ou 30d...), com vista a
uma gestão eficiente de recursos;
- a regulamentação aplicável incluíndo RGPD.
Plano de Trabalhos - Semestre 1
Identificação dos requisitos funcionais e não-funcionais;
Pesquisa de tecnologias de IA e NLA incluindo algoritmos e ferramentas;
Documentação da arquitetura do sistema;
Definição técnica e interfaces;
Relatório Intermédio
Plano de Trabalhos - Semestre 2
Implementação;
Integração com sistemas 3rd-party - exemplo: MediaDive;
Verificação de funcionalidades e desempenho;
Desenvolvimento e instanciação de protótipo funcional;
Elaboração do relatório final.
Condições
Integração no Programa GENIUS Investigação da Inova-Ria.
Entidade Promotora: Inova-Ria
Entidade de acolhimento: Altice Labs
Com possibilidade de integrar uma Bolsa de Investigação - Programa GENIUS - durante a realização do projeto de Dissertação - Integração numa equipa de I&D na Empresa Altice Labs .
Valor de bolsa de acordo com tabelas da FCT (ver pdf em (www.Inova-Ria.pt).
Período de realização de acordo com o enquadramento da Universidade.
• Horário: De acordo com enquadramento da Universidade
• Formato: híbrido ou remoto (a combinar)
• Meios: atribuição de um PC portátil e acessos à rede Interna da Altice Labs
• Kit de Acolhimento
• Onboarding nas equipas da Altice Labs, com atribuição de um tutor full-time
• Possibilidade de participar em todas as iniciativas de partilha de conhecimento ou de entretenimento levadas a cabo pela Altice Labs
• Possibilidade de entrada nos quadros da empresa
Os alunos interessados deverão enviar para genius@inova-ria.pt ao cc Dra Regina Maia Sacchetti (963618710).
• Curriculum Vitae;
• Disciplinas realizadas até ao momento com médias; simples documento eletrónico, que poderá obter no portal académico .
Processo de Seleção: Entrevista Inova-Ria - PROGRAMA GENIUS na qual fará parte o Orientador do projeto de forma a esclarecer a temática envolvida.
Observações
Ferramentas a utilizar
SO Oracle Linux 8.Latest
Containerização em imagens Docker, Node.js, hangfire, .Net Core, python, outras a explorar
Ferramenta de processo de desenvolvimento: JIRA, WIKI, GITHUB,….
Outras específicas relacionadas com a arquitetura proposta e definida
Referências Bibliográficas
A/V Content Inspection – Altice Labs
Competências Chave Requeridas
Dinâmico
Comunicativo e com grande espírito de equipa
Disponibilidade e motivação para aceitar novos desafios
Assertividade na discussão de conceitos, arquiteturas e tecnologias
Conhecimentos na área de programação e arquitetura de sistemas
Orientador
Roger Salgado - roger-a-salgado@alticelabs.com
Para concorrer podes enviar a tua candidatura, envia email para o Programa GENIUS: genius@inova-ria.pt
Orientador
Roger Salgado
roger-a-salgado@alticelabs.com 📩