Propostas submetidas

DEI - FCTUC
Gerado a 2024-12-04 19:19:07 (Europe/Lisbon).
Voltar

Titulo Estágio

Representação vetorial de locais com base em fontes textuais

Áreas de especialidade

Sistemas Inteligentes

Local do Estágio

DEI / CISUC

Enquadramento

O Processamento de Linguagem Natural (PLN) é uma sub-área da Inteligência Artificial que tem como objetivo final capacitar as máquinas a comunicar através da linguagem humana.
Para tal, é muitas vezes necessário passar por várias fases de processamento, tais como a análise morfológica (caraterísticas das palavras), análise sintática (funções das palavras) ou a análise semântica (significado das palavras).
Há um grande volume de trabalho realizado nesta área de investigação, mas maioritariamente aplicado ao inglês, ignorando as outras línguas ou assumindo que o desempenho será semelhante para elas. No entanto, nem sempre é assim e, regra geral, os resultados são melhores quando se recorre a conhecimento específico da língua em que se está a trabalhar.

Uma forma de perceber o significado de uma palavra que não conhecemos passa por procurar, por exemplo, na Web, por textos onde ela seja usada e, através desse contexto, inferir um significado. Esta ação está associada a ideias como "uma palavra carateriza-se pela sua companhia" e "palavras que ocorrem em contextos semelhantes tendem a ter significados próximos", que servem de base a modelos semânticos onde as palavras são representadas através de vetores, relacionados com o contexto onde essas palavras são usadas.

Na área do PLN, este tipo de modelos tornou-se especialmente popular desde que redes neuronais começaram a ser usadas para a aprendizagem de vetores densos, de pequena dimensão, a partir de grandes quantidades de texto, para representar assim palavras de acordo com os contextos onde são usadas (word embeddings). Destacam-se modelos como o word2vec e o GloVe ou, mais recentemente, ELMo e BERT, sendo que os últimos têm capacidade de tratar diferentes sentidos da mesma palavra de forma diferente, ou de codificar sequências maiores que uma palavra.
Para além de se adaptar especialmente bem a problemas de classificação, uma representação vetorial facilita o cálculo da similaridade entre palavras, através do coseno dos seus vetores, bem como a identificação de palavras utilizadas em contextos semelhantes (relacionadas). Ou seja, são uma forma rápida de saber mais sobre conceitos. No caso de nos focarmos num domínio (e.g., investimentos, actividade económica), pode ser uma forma de aprender mais sobre esse domínio.

Objetivo

Este trabalho tem como principal objetivo a exploração de diferentes métodos para representar locais (estabelecimentos, empresas, instituições) através de vetores numéricos (embeddings), que facilitem a aquisição de informação acerca desses locais, tais como: outros locais ou serviços prestados nas redondezas (e.g., hospital, banco, café); ou outros locais com caraterísticas semelhantes, que possam ser vistos como alternativas.

Inicialmente, estes vetores devem ser obtidos a partir de textos descritivos, em português, tais como descrições de empresas e outras instituições, e adicionalmente, se justificável, informação acerca de talento / incentivos.
Tendo em conta que os locais são normalmente referidos pelo seu nome, este processo pode recorrer a modelos que aprendem vetores de palavras a partir de texto "cru" (e.g., word2vec, GloVe), ou partir do ajuste (fine-tuning) de modelos pré-treinados (e.g., BERT) à representação de locais.
Ainda assim, antes de criar novos modelos através do treino ou fine-tuning, será importante analisar até que ponto modelos pré-treinados em grandes quantidades de texto já conseguem caputrar este tipo de informação.

É também um objetivo analisar se há benefícios em aplicar algum tipo de pré-processamento ao texto, nomeadamente recorrer a uma ferramenta para o reconhecimento de entidades mencionadas e fazer uma identificação inicial de nomes de locais, organizações ou serviços; ou a um lematizador para identificar a raiz das palavras, entre outros.

Numa segunda fase, será considerado o enriquecimento da informação recolhida através da exploração de fontes alternativas de dados, tais como a Wikipédia (conhecimento geral sobre o domínio e suas entidades); redes sociais (o que dizem os utilizadores sobre o domínio em questão?); outras fontes na Web, nomeadamente anúncios do mercado imobiliário; ou até bases de conhecimento estruturadas já disponíveis (por exemplo, a DBpedia).

A informação recolhida poderá ser usada na exploração de textos para aquisição de conhecimento sobre um domínio, mas também em aplicações como a sumarização automática e apoio à decisão para potenciais investidores.

Os vários modelos de representação deverão ser comparados, por exemplo, num cenário de classificação automática de locais num conjunto de categorias.
Deverão ainda ser explorados mecanismos para a identificação de clusters de serviços associados a determinadas regiões, bem como formas de os visualizar.

Plano de Trabalhos - Semestre 1

- Levantamento do estado da arte na área do Processamento de Linguagem Natural e sub-áreas de interesse para o trabalho
- Análise de requisitos e identificação de fontes de dados
- Familiarização com os modelos ferramentas a usar e experiências preliminares com modelos pré-treinados
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Modelos vetoriais baseados numa coleção inicial de textos descritivos
- Análise de benefícios do pré-processamento
- Exploração de outras fontes de dados
- Aplicação e avaliação dos modelos de representação
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será o laboratório de investigação do grupo CMS do CISUC, onde haverá um acompanhamento regular por parte dos orientadores.

Observações

Durante a fase de candidatura, dúvidas relacionadas com esta proposta, nomeadamente acerca dos objectivos e condições, devem ser esclarecidas com o orientador, através de e-mail (hroliv@dei.uc.pt) ou de uma reunião presencial, a marcar após um contacto por e-mail.

Orientador

Hugo Gonçalo Oliveira e Ana Alves
hroliv@dei.uc.pt 📩