Titulo Estágio
Explorando problemas de overlap e dataset shift em dados pouco balanceados
Áreas de especialidade
Sistemas Inteligentes
Local do Estágio
DEI-CISUSC
Enquadramento
Em problemas de classificação, o desempenho de diferentes algoritmos pode variar de acordo com múltiplos fatores designados tipicamente na literatura como ‘difficulty factors’. Entre esses problemas encontram-se o problema de dados pouco balanceados que per se não afeta os classificadores, mas que em combinação com outros problemas como o overlap quando existe uma sobreposição de dados de diferentes classes na mesma região espacial e, o dataset shift que ocorre quando a distribuição dos dados utilizada no processo de treino é diferente daquela que é utilizada no processo de teste, provocam enorme deterioração no desempenho dos classificadores. Apesar destes problemas serem conhecidos pelos investigadores, não existem ainda estudos que visam não só a sua quantificação como também ganhar sensibilidade sobre a degradação que estes provocam no desempenho dos classificadores.
Objetivo
Com este trabalho pretende-se endereçar estes dois problemas, overlap e dataset shift de forma isolada, com vista à sua quantificação como problema per se e também ganhar conhecimento quando à degradação que estes problemas conseguem gerar nos algoritmos de classificação.
Plano de Trabalhos - Semestre 1
-Seleção de datasets em repositórios open source para realizar as experiências do dataset shift
-Estudo das métricas para quantificar overlap e dataset shift
-Implementação das métricas e sua disponibilização como biblioteca online para o problema de overlap
-Estudo de diferentes estratégias de geração de dados sintéticos para o problema de overlap
-Escrita do relatório Intermédio
Plano de Trabalhos - Semestre 2
-Desenvolver Setup experimental para o problema do dataset shift
-Implementar diferentes estratégias de geração de dados sintéticos capazes de simular diferentes ambientes de overlap
-Desenvolver Setup experimental para o problema do overalp
-Extrair conclusões
-Escrita de dois artigos científicos (um por problema)
-Escrita do relatório final de tese
Condições
-
Orientador
Pedro Manuel Henriques da Cunha Abreu
pha@dei.uc.pt 📩