Titulo Estágio
AICOD- Categorização Automática e Inteligente de Documentos: Módulo Web
Área Tecnológica
Engenharia de Software, Programação e Aprendizagem Avançada
Local do Estágio
Centro de Informática e Sistemas, CISUC, Grupo de Computação Adaptativa, Lab: LARN
Enquadramento
Com a ubiquidade da
Internet, a quantidade de documentos em formato digital multiplica-se e torna
cada vez mais crucial a sua organização automática. O sistema AICOD – Automatic Intelligent
Categorization of Documents (http://aicod.dei.uc.pt)
é uma
aplicação desenvolvida para que os utilizadores possam efectuar a categorização
dos seus documentos de forma automática o
que permite optimizar o tempo utilizado quando as tarefas de organização,
filtragem e encaminhamento de documentos são realizadas de uma forma manual.
O sistema recebe
documentos de texto (em qualquer formato) que podem ser imagens, páginas web ou emails. A aplicação desenvolvida implementa uma framework de categorização automática de
documentos que possibilita a execução, parametrização e mesmo substituição de
métodos para todas as fases de sistema, nomeadamente, receber e representar um
conjunto de textos em vários formatos possíveis (email, HTML, SGML,...), reduzir a dimensão do espaço de
características, aprendizagem e classificação. Foi ainda efectuada a
implementação, o teste e a comparação de um conjunto de algoritmos standard (redes neuronais, SVM,...)
recorrendo a versões implementadas em Java destes algoritmos e disponíveis publicamente,
nomeadamente o Weka Data Mining Software, disponível em www.cs.waikato.ac.nz/ml/weka/.
Objetivo
O resultado deste estágio deve ser a implementação de um módulo web que permita expandir o AICOD para classificação em ambientes web. Pretende-se que este módulo acrescente à framework a capacidade de classificar páginas seguindo a estrutura de links que está subjacente à Internet. Além disso, pretende-se que, como forma de lidar com a informação variada das páginas web, a classificação seja multimédia, i.e. explore não só o conteúdo textual das páginas, mas também o conteúdo das imagens normalmente presentes. A experimentação deve ser realizada com corpora web (i.e., data sets que sejam páginas web referentes a um tópico específico como páginas de Conferencias ou de Patentes), mas também em ambientes reais, i.e. na Internet.
Plano de Trabalhos - Semestre 1
- Revisão bibliográfica
-
Estudo das ferramentas de
desenvolvimento.
- Análise e especificação
- Relatório de Estágio Intermédio
Plano de Trabalhos - Semestre 2
- Implementação do protótipo do módulo e
integração no sistema AICOD
- Testes e experimentação.
- Relatório de estágio
Condições
Conhecimentos de Java, XML e linguagens de desenvolvimento web
Orientador
Bernardete Ribeiro & Catarina Silva
bribeiro@dei.uc.pt 📩