Propostas Submetidas

DEI - FCTUC
Gerado a 2024-04-27 02:46:56 (Europe/Lisbon).
Voltar

Titulo Estágio

Exploração de Informação Textual na aprendizagem de Modelos Inteligentes de Mobilidade

Áreas de especialidade

Sistemas Inteligentes

Sistemas de Informação

Local do Estágio

DEI - AmILab

Enquadramento

O trabalho desenvolvido no Laboratório de Ambient Intelligence do Grupo de Sistemas Cognitivos e Multimédia do CISUC tem se baseado na previsão da mobilidade e uso do solo [1], [2]. Todos estes trabalhos culminaram na criação de modelos de aprendizagem (supervisionada e não-supervisionada) utilizando características numéricas e nominais de diversas fontes oficiais e redes sociais. Visto que algumas destas fontes oferecem informação em formato textual, é necessário tirar partido destes dados e dotar o processo de extração de características da capacidade de representar estes textos no modelo a ser treinado.

Objetivo

Em Processamento da Língua Natural (PLN), originalmente, grande parte da representação de textos era baseada em Bags-of-Words (BOW), isto é, essencialmente listas das palavras mais relevantes que estatisticamente sobressaem em cada texto, ou ainda através dos tópicos mais relevantes [3]. No entanto, a ordem das palavras é totalmente perdida e, além disso, as listas criadas são muito esparsas na maior parte das vezes (devido ao facto de conter contagens para palavras muito raras, que aparecem apenas uma vez em todo conjunto).

Word Embeddings ou Contextual Bag-of-Words permitem tornar mais eficiente esta representação, uma vez que se baseiam na ideia de podermos saber o que uma palavra significa pelo contexto em que ela está inserida. As abordagens mais eficientes ao nível de memória usada baseiam-se numa rede neuronal treinada para prever uma palavra a partir do contexto em que ela ocorre [4].

O resultado é um espaço vetorial em que uma palavra ou frase é representada por meio de um vetor de números reais e onde palavras relacionadas serão, tendencialmente, representadas por vetores similares. Este tipo de representações também se revelou promissor na identificação de analogias (Lisboa está para Portugal assim como Madrid está para Espanha) [5] ou mesmo de locais [6].

Pretende-se desta forma avaliar o impacto do enriquecimento da aprendizagem, ou seja, a introdução das características de origem textual na performance do modelo de aprendizagem. Para tal o(a) aluno(a) terá acesso aos conjuntos de dados necessários para replicar a aprendizagem do modelo original, assim como as fontes com dados textuais para o processo de enriquecimento.

REFERÊNCIAS
[1] G. Ferreira, A. Alves, M. Veloso, and C. Bento, “Identification and Classification of Routine Locations Using Anonymized Mobile Communication Data,” ISPRS International Journal of Geo-Information, vol. 11, no. 4, p. 228, Mar. 2022, doi: 10.3390/ijgi11040228.
[2] R. Andrade, A. Alves, and C. Bento, “POI Mining for Land Use Classification: A Case Study,” ISPRS International Journal of Geo-Information 2020, Vol. 9, Page 493, vol. 9, no. 9, p. 493, Aug. 2020, doi: 10.3390/IJGI9090493.
[3] D. Jurafsky and J. Martin, Speech and Language Processing. 2020. Accessed: Oct. 06, 2020. [Online]. Available: https://web.stanford.edu/~jurafsky/slp3/
[4] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed Representations of Words and Phrases and their Compositionality.” pp. 3111–3119, 2013. Accessed: Oct. 06, 2020. [Online]. Available: http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality
[5] R. Fu, J. Guo, B. Qin, W. Che, H. Wang, and T. Liu, “Learning semantic hierarchies via word embeddings,” in 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014 - Proceedings of the Conference, 2014, vol. 1, pp. 1199–1209. doi: 10.3115/v1/p14-1113.
[6] B. Yan, G. Mai, K. Janowicz, and S. Gao, “From ITDL to Place2Vec – Reasoning About Place Type Similarity and Relatedness by Learning Embeddings From Augmented Spatial Contexts,” in GIS: Proceedings of the ACM International Symposium on Advances in Geographic Information Systems, Nov. 2017, vol. 2017-Novem, pp. 1–10. doi: 10.1145/3139958.3140054.


Plano de Trabalhos - Semestre 1

INI Início dos trabalhos
M1 Tarefa T1 terminada
M3 Tarefa T2 terminada


PROGRAMA DE TRABALHOS
O projeto de Mestrado consistirá nas seguintes tarefas:

• T1 – Revisão do Estado da Arte
• T2 – Recolha da informação e conjunto de dados a usar
• T3 –Criação e Avaliação de um modelo de aprendizagem enriquecido com características textuais
• T3.1 Representação Simbólica: categorias, palavras-chave
• T3.2 Representação Numérica: tópicos, vetores de palavras
• T4 – Avaliação final e Refinamento do Modelo com melhor desempenho
• T5 –Documentação
• T6 –Escrita de um artigo científico

Plano de Trabalhos - Semestre 2

M6 Tarefa T3 terminada
M7 Tarefa T4 terminada
M8 Tarefa T5 terminada

PROGRAMA DE TRABALHOS
O projeto de Mestrado consistirá nas seguintes tarefas:

• T1 – Revisão do Estado da Arte
• T2 – Recolha da informação e conjunto de dados a usar
• T3 –Criação e Avaliação de um modelo de aprendizagem enriquecido com características textuais
• T3.1 Representação Simbólica: categorias, palavras-chave
• T3.2 Representação Numérica: tópicos, vetores de palavras
• T4 – Avaliação final e Refinamento do Modelo com melhor desempenho
• T5 –Documentação
• T6 –Escrita de um artigo científico


4. RESULTADOS
Os resultados do estágio de mestrado serão consubstanciados num conjunto de documentos a elaborar pelo(a) estagiário(a) de acordo com o seguinte plano:

R1.1: Relatório do Estado da Arte
R2.1: Descrição dos conjuntos de dados e características extraídas
R3.1: Artigo Científico
R4.1: Especificação do Modelo de Aprendizagem
R5.1: Testes de Avaliação
R6.1: Relatório de Projeto

Condições

LOCAL DE TRABALHO
Via Zoom por videoconferência e posteriormente de forma presencial DEI/CISUC

METODOLOGIA
Organização de um Dossier de Projeto através de uma pasta partilhada, e reuniões semanais.

BOLSA
O candidato selecionada concorre automaticamente a uma bolsa de Licenciado 6 meses (remuneração ~760€/mensais)

Observações

BOLSA
O candidato selecionada concorre automaticamente a uma bolsa de Licenciado 6 meses (remuneração ~760€/mensais)

Orientador

Carlos L Bento e Ana Alves
bento@dei.ic.pt 📩