Informações sobre o projeto

O projeto C-ORAL-BRASIL visa ao estudo da fala espontânea do português brasileiro através da compilação de um corpus comparável aos corpora do projeto C-ORAL-ROM.

Seus coordenadores são Tommaso Raso e Heliana Mello.

O projeto é financiado pela Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), pelo Conselho Nacional de Desenvolvimento Tecnológico (CNPq), pela Universidade Federal de Minas Gerais (UFMG) e pelo Banco Santander.


Síntese das especificações do corpus

O corpus será composto de pelo menos 200 textos e 300.000 palavras, divididos em uma metade formal (em fase de coleta) e uma metade informal (concluída). A metade informal se divide em um domínio privado/familiar (80%) e um domínio público (20%). Cada domínio se divide em monólogos (1/3), diálogos (1/3) e conversações (1/3). O objetivo principal da arquitetura do corpus é representar a variação diafásica da fala brasileira, com especial atenção à diatopia mineira (em particular, a região metropolitana de Belo Horizonte). Portanto, as gravações procuram buscar a maior variação situacional possível. Secundariamente, busca-se também representar a variação diastrática. Os textos (em média de 1500 palavras) são segmentados em enunciados e unidades tonais, para permitir o estudo das ilocuções e da estrutura informacional com base na Language into Act Theory*, desenvolvida por Emanuela Cresti, diretora do laboratório LABLITA da Universidade de Florença (Itália).

As principais fases de compilação são:

  1. Gravação com equipamento wireless de alta qualidade;

  2. Transcrição por transcritores experientes segundo os critérios de segmentação mencionados e com base em critérios não sempre ortográficos, com o intuito de preservar fenômenos da fala que possam estar em curso de gramaticalização ou lexicalização;

  3. Revisão das transcrições;

  4. Segunda revisão durante o alinhamento com o software WinPitch de Philippe Martin;

  5. Etiquetagem léxico-morfossintática através do parser PALAVRAS de Eckhard Bick, especialmente treinado para este corpus e com a ajuda de um pré-processamento utilizando o ambiente computacional R;

  6. Etiquetagem informacional de um minicorpus de pelo menos 20 textos e 30.000 palavras com base na Language into Act Theory*.


*Veja-se:

CRESTI, E. Corpus di Italiano parlato. v. 1. Firenze: Accademia della Crusca, 2000. 

CRESTI, E.; MONEGLIA, M. Informational patterning theory and the corpus-based description of spoken language: The compositionality issue in the topic-comment pattern. In: M. Moneglia; A. Panunzi (Eds.); Bootstrapping Information from Corpora in a Cross-Linguistic Perspective. p.13-45. Firenze: FUP, 2010.

MONEGLIA, M.; RASO, T. Notes on the Language into Act Theory. In: T. Raso; H. Mello (Eds.), Spoken corpora and linguistic studies. pp. 468-489. Amsterdam/Philadelphia: John Benjamins. 2014.