Titulo Estágio
Projecto EDUCA – Classificação e Sumarização de Documentos
Área Tecnológica
Inteligência Artificial
Local do Estágio
Instalações da Flor de Utopia em Coimbra
Enquadramento
O objectivo do projecto EDUCA é desenvolver uma plataforma informática para suportar um repositório de conteúdos distribuído e escalável, baseado em tecnologias abertas, que permita agregar, pesquisar, publicar e proteger conteúdos multimédia empresariais, científicos, educativos e culturais. O resultado esperado no final do projecto será uma plataforma digital para a criação e integração de bibliotecas, arquivos, museus, escolas digitais e instituições de investigação.
Pretende-se que a plataforma seja capaz de proceder automaticamente à extracção de informação e de classificação semântica de documentos, bem como à sua sumarização. Neste momento, parte da solução para estas funcionalidades encontra-se já definida, designadamente no que respeita a técnicas de extracção de informação, reconhecimento de entidades nomeadas (pessoas, localizações, instituições, ...) e detecção de um conjunto significativo de relações.
No âmbito desta tese, pretende-se avaliar e incorporar na plataforma os recursos linguísticos mais adequados às tarefas em causa, bem como à natureza multimédia dos documentos e às línguas em que se encontram escritos. Pretende-se ainda estudar e selecionar mecanismos e recursos adequados à tarefa de sumarização automática.
No actual estado da arte, o recurso a abordagens não-supervisionadas e/ou semi-supervisionadas quer para a extracção de informação, quer para a classificação, tem-se confinado quase exclusivamente às componentes textuais dos documentos. Para estas, os recursos linguísticos de suporte ao processamento computacional (ontologias, léxicos, corpora, thesaurus, etc.) são específicos da língua de expressão. Parte significativa do conteúdo textual dos repositórios a gerir por este sistema está em língua portuguesa, pelo que vai ser prestada especial atenção aos recursos linguísticos disponíveis para o português.
Objetivo
A presente proposta de Estágio enquadra-se no Projecto EDUCA. O objectivo deste projecto é desenvolver uma plataforma digital para criação e integração de bibliotecas, arquivos e museus multimédia. Este projecto está a ser conduzido em conjunto pelo DEI e pela Flor de Utopia (http://www.flordeutopia.pt/), uma empresa de Coimbra com diversos produtos e serviços nesta área. A presente proposta tem por objectivo a concepção e implementação de uma módulo de classificação e sumarização de documentos.
Plano de Trabalhos - Semestre 1
-Familiarização com o tema do trabalho e soluções já desenvolvidas, e análise do estado-da-arte (4 semanas)
-Análise de Requisitos para a Classificação de Documentos (2 semanas)
-Concepção e Especificação do Módulo (2 semanas)
-Análise de Requisitos para a Sumarização de Documentos (3 semanas)
-Concepção e Especificação do Módulo (3 semanas)
Plano de Trabalhos - Semestre 2
-Desenvolvimento do Protótipo do Módulo (8 semanas)
-Integração com restantes Módulos do Projecto EDUCA (2 semanas)
-Avaliação Preliminar do Módulo (3 semanas)
-Documentação final e Escrita do Relatório/Dissertação (2 semanas).
Condições
Será dada preferência a candidatos com domínio de Java, Web Semântica, Text Mining, Processamento de Linguagem Natural e tecnologias associadas.
A capacidade de trabalho em equipa será essencial, dado que o candidato ficará enquadrado na equipa do Projecto EDUCA.
Observações
O estágio será efectuado nas instalações da Flor de Utopia, em Coimbra, de modo a estimular a integração com a restante equipa do projecto.
Em função dos resultados alcançados o candidato poderá ser eventualmente convidado pela Flor de Utopia, depois de terminado o estágio, para continuar a trabalhar neste projecto.
O estágio poderá ser remunerado com uma Bolsa de Investigação, com valor a definir em função da disponibilidade e do perfil do candidato.
Orientador
Paulo Gomes
pgomes@dei.uc.pt 📩