Titulo Estágio
Rapportágico II: Sistema de Pesquisa de Artigos na Wikipédia para Resposta Automática a Perguntas
Área Tecnológica
Inteligência Artificial
Local do Estágio
DEI - Laboratório de Inteligência Artificial
Enquadramento
Actualmente, a Wikipédia é, muitas vezes, o primeiro sítio onde se procura a resposta para uma qualquer pergunta. Os artigos encontrados são muitas vezes as próprias respostas, e a justificação das mesmas está no seu conteúdo.
É esta premissa que deu origem à primeira edição do Págico, uma tarefa levada a cabo pela Linguateca (http://www.linguateca.pt/Pagico/), definida como “uma avaliação conjunta na área de recolha de informação em português, que tem por objectivo avaliar sistemas que encontrem respostas não triviais a necessidades de informação complexas, em língua portuguesa”.
O sistema Rapportágico[1] obteve os melhores resultados entre as participações automáticas. Da análise posterior da participação, dos seus resultados e mesmo das outras abordagens (tanto automáticas como humanas), chegou-se a duas conclusões importantes:
• Os fundamentos que levaram à criação do Págico têm aplicabilidade prática;
• Há uma grande margem para evolução da abordagem, tanto incorporando novas técnicas, como melhorando as actuais.
A evolução do Rapportágico poderá ser validada, numa primeira fase, com base nos recursos decorrentes da primeira edição do Págico, que poderá ser utilizada como um benchmark. Numa fase posterior, além da expectativa de novas edições do Págico, o sistema deverá ser testado noutros cenários, nomeadamente com a criação de novas perguntas e novos tipos de perguntas (para além daquelas usadas no Págico).
Objetivo
Ainda que algumas técnicas possam ser adaptadas a outras línguas, o sistema a desenvolver deverá conseguir encontrar, na edição portuguesa da Wikipédia, a resposta a perguntas (ou tópicos) que consistem em necessidades de informação não triviais sobre a cultura lusófona.
Por exemplo, um dos tópicos do Págico era:
• Pagico_007: Guitarristas portugueses que também foram compositores. # Artes
As seguintes páginas fazem parte do conjunto das possíveis respostas:
• Pagico_007 pt/f/e/r/Fernando_Cunha.cbaf88.xml {}
• Pagico_007 pt/a/n/d/André_Indiana.6123ae.xml {}
• Pagico_007 pt/a/r/t/Artur_Paredes.4a795d.xml {}
• Pagico_007 pt/m/á/r/Mário_Pacheco.03de52.xml {}
• Pagico_007 pt/g/o/n/Gonçalo_Paredes.152ab4.xml {}
• Pagico_007 pt/a/n/t/António_Chainho.bfbe28.xml {}
• Pagico_007 pt/f/l/á/Flávio_Rodrigues_da_Silva.59941a.xml {}
• Pagico_007 pt/p/e/i/Peixe__músico_.027a8d.xml {}
• Pagico_007 pt/p/e/d/Pedro_Caldeira_Cabral.835ce9.xml {}
• Pagico_007 pt/c/a/r/Carlos_Paredes.d573d2.xml {}
• Pagico_007 pt/j/o/ã/João_Gil.61a9ae.xml {}
• Pagico_007 pt/p/a/u/Paulo_Galvão.287f0c.xml {}
• Pagico_007 pt/p/a/u/Paulo_Barros__músico_.124940.xml {}
• Pagico_007 pt/p/e/d/Pedro_Ayres_Magalhães.e12ddb.xml {}
• Pagico_007 pt/c/u/s/Custódio_Castelo.9202b1.xml {}
Note-se que as respostas indicam o caminho para o artigo na colecção disponibilizada pela Linguateca para o Págico (um dump da versão portuguesa da Wikipédia), mas que tem correspondência na Wikipédia online.
Há cinco objectivos principais nesta dissertação:
1) Analisar a abordagem no seu estado actual, de forma a identificar possíveis melhorias;
2) Estudar outras abordagens, identificando os seus pontos fortes;
3) Propor novas soluções a implementar;
4) Tornar a abordagem parametrizável, de forma a testar variações de forma sistemática;
5) Testar a prestação da (evolução da) abordagem usando os recursos actuais como benchmark e, havendo uma nova edição do Págico, contra outras abordagens.
Plano de Trabalhos - Semestre 1
• Revisão bibliográfica
• Levantamento do estado da arte relativamente a geração de perguntas, resposta automática a perguntas e ontologias lexicais
• Estudo de possíveis evoluções para o desenvolvimento do Rapportágico
• Análise e especificação do novo protótipo
• Escrita da Proposta de Tese
Plano de Trabalhos - Semestre 2
• Implementação do protótipo
• Testes e experimentação do protótipo
• Elaboração da dissertação
• Escrita de artigo científico
Condições
O local de trabalho será o laboratório de investigação do grupo CMS do CISUC onde haverá um acompanhamento regular por parte dos orientadores.
Observações
[1] Rodrigues, R., Gonçalo Oliveira, H., e Gomes, P. Uma Abordagem ao Págico baseada no Processamento e Análise de Sintagmas dos Tópicos. Linguamática, Vol. 4, #1, pp. 31-39, Alberto Simões, José João Almeida, Xavier Gómez Guinovart, Abril 2012. [Revista disponível em: http://www.linguamatica.com/linguamatica-v4n1.pdf]
Orientador
Paulo Gomes, Hugo Oliveira, Ricardo Rodrigues
pgomes@dei.uc.pt 📩