Informações sobre o projeto

O projeto C-ORAL-BRASIL visa ao estudo da fala espontânea do português brasileiro através da compilação de um corpus comparável aos corpora do projeto C-ORAL-ROM.

Seus coordenadores são Tommaso Raso e Heliana Mello.

O projeto é financiado pela Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), pelo Conselho Nacional de Desenvolvimento Tecnológico (CNPq), pela Universidade Federal de Minas Gerais (UFMG) e pelo Banco Santander.


Síntese das especificações do corpus

O corpus será composto de pelo menos 200 textos e 300.000 palavras, divididos em uma metade formal (em fase de coleta) e uma metade informal (concluída).

A metade informal se divide em um domínio privado/familiar (80%) e um domínio público (20%). Cada domínio se divide em monólogos (1/3), diálogos (1/3) e conversações (1/3).

O objetivo principal da arquitetura do corpus é representar a variação diafásica da fala brasileira, com especial atenção à diatopia mineira (em particular a região metropolitana de Belo Horizonte). Portanto as gravações procuram buscar a maior variação situacional possível. Secundariamente, busca-se também representar a variação diastrática.

Os textos (em média de 1500 palavras) são segmentados em enunciados e unidades tonais, para permitir o estudo das ilocuções e da estrutura informacional com base na Teoria da Língua em Ato* de Emanuela Cresti, diretora do laboratório LABLITA da Universidade de Florença (Itália).


As principais fases de compilação são:

  1. Gravação com equipamento wireless de alta qualidade;

  2. Transcrição por transcritores experts segundo os critérios de segmentação mencionados e com base em critérios não sempre ortográficos, com o intuito de preservar fenômenos da fala que possam estar em curso de gramaticalização ou lexicalização;

  3. Revisão das transcrições;

  4. Segunda revisão durante o alinhamento com o software WinPitch de Philippe Martin;

  5. Etiquetagem léxico-morfossintática com o software Palavras de Eckhard Bick, especialmente treinado para este corpus e com a ajuda de um pré-processamento utilizando o ambiente computacional R;

  6. Etiquetagem informacional de um minicorpus de pelo menos 20 textos e 30.000 palavras com base na Teoria da Língua em Ato*.


*Veja-se:

CRESTI, E. Corpus di Italiano parlato. v. 1. Firenze: Accademia della Crusca, 2000. 

CRESTI, E.; MONEGLIA, M. Informational patterning theory and the corpus-based description of spoken language: The compositionality issue in the topic-comment pattern. In: M. Moneglia; A. Panunzi (Eds.); Bootstrapping Information from Corpora in a Cross-Linguistic Perspective. p.13-45. Firenze: FUP, 2010.