Propostas Submetidas

DEI - FCTUC
Gerado a 2024-05-02 03:05:54 (Europe/Lisbon).
Voltar

Titulo Estágio

Geração Automática de Pseudopalavras em Português

Áreas de especialidade

Sistemas Inteligentes

Engenharia de Software

Local do Estágio

DEI/CISUC

Enquadramento

Pseudopalavras são sequências de carateres que, apesar de respeitarem todas as regras de uma língua, não existem nessa língua (ex. sipota em Português), e são amplamente usadas como estímulos verbais na investigação neurocientífica mais atual.
Contudo, a sua construção é complexa, dado que deve atender, simultaneamente, a um conjunto diversificado de parâmetros que envolvem, não só a (i)legalidade de determinadas sequências numa dada língua, mas também a distribuição interna das letras/fonemas no seio das palavras. Por exemplo, sabemos que palavras ilegais (e.g., ldfa) são identificadas mais rapidamente e de forma mais precisa como palavras inexistentes na língua (i.e. não-palavras) do que palavras reais, pseudopalavras (e.g., lafta) são identificadas de forma mais lenta e com mais erro do que palavras, dando origem ao conhecido efeito de lexicalidade. Adicionalmente pseudohomófonos (i.e., pseudopalavras com pronúncia idêntica à de palavras mas com ortografia inexistente na língua; ex. paçaru) geram também um efeito similar, ainda que a inibição produzida seja de maior magnitude (efeito de pseudohomofonia).

Apesar da consciência crescente acerca da importância das características das pseudopalavras, a prática dos investigadores na criação deste tipo de estímulos caracteriza-se pela mudança de uma ou mais letras de palavras existentes na língua, transformando-as em palavras inexistentes (ex., boina-> loita). Isto acarreta inúmeras desvantagens como a introdução de vieses do próprio investigador na geração dos estímulos (ex., os investigadores podem ter preferências idiossincráticas pela modificação de certas letras em detrimento de outras) ou na ausência de controlo sobre outras variáveis (ex., similitude com palavras existentes no léxico) que podem afetar o processamento.

Reconhecendo estas desvantagens, têm surgido propostas para lidar com estes problemas metodológicos, e que passam tanto pela construção de listas de pseudopalavras, a que os investigadores podem recorrer para selecionar as pseudopalavras a usar nos seus estudos; como pela construção de ferramentas eletrónicas que permitem a geração on-line de pseudopalavras que obedeçam a determinados requisitos. Porém, apesar das incontestáveis vantagens associadas ao seu uso, este tipo de ferramenta não existe para o português.

Objetivo

A construção de pseudopalavras é complexa e requer o recurso a ferramentas especializadas que garantam o controlo adequado de um conjunto de características. Neste trabalho pretende-se construir uma ferramenta que apoie os investigadores das áreas da linguística, psicolinguística e de todas as áreas que recorram a estímulos verbais, na geração de pseudopalavras em português.

À semelhança das palavras, as pseudopalavras são estímulos complexos que devem ser controlados num conjunto de parâmetros que se sabem afetar o processamento. Contudo, embora disponíveis noutras línguas, estas ferramentas são inexistentes no português. Com este trabalho, pretende-se ultrapassar esta lacuna e oferecer à comunidade científica uma ferramenta que, com rapidez e eficiência, gere pseudopalavras que obedeçam aos requisitos da investigação, constituindo, por isso, uma mais-valia à internacionalização da investigação (psico)linguística nacional.

A primeira fase do trabalho deverá apoiar-se no estado da arte da geração de pseudopalavras, em outras línguas, para a definição e implementação de um conjunto de algoritmos base para a geração de palavras que obedeçam aos constrangimentos do português. Os algoritmos desenvolvidos deverão ser inicialmente aplicados ao P-PAL (http://p-pal.di.uminho.pt), uma base lexical que disponibiliza inúmeras métricas que podem ser úteis para este fim (ex. frequência de ocorrência das palavras, similitude com outras palavras no léxico, fonemas, estrutura silábica).

O trabalho deverá incluir uma análise de recursos e ferramentas externas, já existentes para o português, que possam ser integrados no algoritmo definido, tais como dicionários, transcrições fonéticas, analisadores morfológicos ou ferramentas de divisão silábica. Estes visam, por um lado, evitar que a ferramenta seja completamente desenvolvida de raiz e, por outro, torná-la independente do P-PAL.
Pretende-se ainda estudar a possibilidade de ir para além de algoritmos ao nível da ortografia (comuns no estado da arte), e tirar também partido da fonologia.

Finalmente, pretende-se desenvolver uma API REST que facilite a comunicação de aplicações com a Pseudolavra, e de uma aplicação web que permita aos utilizadores interagir com a Pseudolavra sem a necessidade de instalar software adicional. Esta aplicação deverá permitir a geração de pseudopalavras com base numa palavra semente fornecida pelo utilizador.

Plano de Trabalhos - Semestre 1

- Levantamento do estado da arte da geração de pseudopalavras em diferentes línguas
- Análise de potenciais ferramentas externas de apoio ao desenvolvimento
- Definição de um algoritmo inicial, com base num corpo pré-definido e primeiras experiências
- Elaboração da proposta de dissertação

Plano de Trabalhos - Semestre 2

- Implementação do algoritmo definido e avaliação de melhorias com recurso a ferramentas externas
- Desenvolvimento de um website e de uma API REST para a ferramenta desenvolvida
- Experimentação e Testes
- Elaboração da dissertação
- Escrita de artigo científico

Condições

O local de trabalho será no grupo CMS do CISUC.

Há possibilidades deste trabalho vir a ser remunerado através de uma bolsa de investigação para licenciado (745€) que pode durar entre 6 a 12 meses, no âmbito de um projeto apoiado pela Fundação Calouste Gulbenkian, ainda por aprovar.

Observações

Este trabalho será desenvolvido em colaboração com o Grupo de Investigação em Psicolinguística (GIP) do Centro de Investigação em Psicologia (CIPsi) da Universidade do Minho (ver https://www.psi.uminho.pt/pt/investigacao/Psicolinguistica), que pretende utilizar a ferramenta desenvolvida para vários estudos, e ainda com o grupo de Processamento de Sinal Multimédia, do pólo de Coimbra do Instituto de Telecomunicações (ver https://www.it.pt/Groups/Index/23), que tem trabalhado na avaliação da capacidade de leitura em crianças.

Durante a fase de candidatura, dúvidas relacionadas com esta dissertação, nomeadamente objectivos e condições, devem ser esclarecidos com o orientador, via e-mail (hroliv@dei.uc.pt) ou de uma reunião presencial, a marcar via e-mail.

Orientador

Hugo Gonçalo Oliveira
hroliv@dei.uc.pt 📩