Titulo Estágio
Projecto EDUCA – Módulo de Extracção de Informação e Classificação de Documentos
Área Tecnológica
Inteligência Artificial
Local do Estágio
Coimbra
Enquadramento
O objectivo do projecto Educa é desenvolver uma plataforma informática para suportar um repositório de conteúdos distribuído e escalável, baseado em tecnologias abertas, que permita agregar, pesquisar, publicar e proteger conteúdos multimédia empresariais, científicos, educativos e culturais. O resultado esperado no final do projecto será uma plataforma digital para a criação e integração de bibliotecas, arquivos, museus, escolas digitais e instituições de investigação.
No âmbito desta tese, pretende-se as avaliar as técnicas de extracção de informação e de classificação de documentos, bem como os recursos linguísticos necessários, tomando em consideração a sua natureza multimédia e as línguas em que se encontram expressos.
No actual estado da arte, o recurso a abordagens não-supervisionadas e/ou semi-supervisionadas quer para a extracção de informação, quer para a classificação, tem-se confinado quase exclusivamente às componentes textuais dos documentos. Para estas, os recursos linguísticos de suporte ao processamento computacional (ontologias, léxicos, corpora, thesaurus, etc.) são específicos da língua de expressão. Parte significativa do conteúdo textual dos repositórios a gerir por este sistema está em língua portuguesa, pelo que vai ser prestada especial atenção aos recursos linguísticos disponíveis para o português.
Sendo conhecida a exiguidade destes, a extracção de informação deverá ter metas comedidas, embora deva, no mínimo, proceder ao reconhecimento de entidades nomeadas (pessoas, localizações, instituições, ...) e detecção de um conjunto significativo de relações. Para as componentes de imagem, áudio e vídeo, deverá dar-se prioridade ao estudo de abordagens supervisionadas, sem ignorar as técnicas e recursos actuais para extracção semi-supervisionada.
Objetivo
A presente proposta de Estágio enquadra-se no Projecto EDUCA. O objectivo deste projecto é desenvolver uma plataforma digital para criação e integração de bibliotecas, arquivos e museus multimédia. Este projecto está a ser conduzido em conjunto pelo DEI e pela Flor de Utopia (http://www.flordeutopia.pt/), uma empresa de Coimbra com diversos produtos e serviços nesta área. A presente proposta tem por objectivo a concepção e implementação de uma módulo de extracção de informação e classificação de documentos.
Plano de Trabalhos - Semestre 1
- Familiarização com o tema do trabalho e análise do estado-da-arte (4 semanas)
- Análise de Requisitos para o módulo de Extracção de Informação e Classificação de Documentos (4 semanas)
- Concepção e Especificação do Módulo (6 semanas)
Plano de Trabalhos - Semestre 2
- Desenvolvimento do Protótipo do Módulo (8 semanas)
- Integração com restantes Módulos do Projecto EDUCA (2 semanas)
- Avaliação Preliminar do Módulo (3 semanas)
- Documentação final e Escrita do Relatório/Dissertação (2 semanas).
Condições
Será dada preferência a candidatos com domínio de Java, Inteligência Artificial, Aprendizagem pela Máquina, Text Mining, Processamento de Linguagem Natural e tecnologias associadas.
A capacidade de trabalho em equipa será essencial, dado que o candidato ficará enquadrado na equipa do Projecto EDUCA.
Observações
O estágio será efectuado nas instalações da Flor de Utopia, em Coimbra, de modo a estimular a integração com a restante equipa do projecto.
Em função dos resultados alcançados o candidato poderá ser eventualmente convidado pela Flor de Utopia, depois de terminado o estágio, para continuar a trabalhar neste projecto.
O estágio poderá ser remunerado com uma Bolsa de Investigação, com valor a definir em função da disponibilidade e do perfil do candidato.
Orientador
Prof. Paulo Gomes
pgomes@dei.uc.pt 📩