C-ORAL-BRASIL - Menu
english
logo C-ORAL-BRASIL

Início O projeto Coordenadores Equipe Livro Corpora Multimídia Publicações Eventos Links úteis Contato

Informações sobre o projeto

O projeto C-ORAL-BRASIL visa ao estudo da fala espontânea. Destacam-se os corpora de português brasileiro comparáveis aos corpora do projeto C-ORAL-ROM.

Seus coordenadores são Tommaso Raso e Heliana Mello.

O projeto é financiado pela Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), pelo Conselho Nacional de Desenvolvimento Tecnológico (CNPq), pela Universidade Federal de Minas Gerais (UFMG)


Síntese das especificações do corpus

O corpus C-ORAL-BRASIL I representa a fala informal do português brasileiro, com ampla variação situacional, principalmente na diatopia mineira. É composto por 139 textos e 208.130 palavras, divididos em diálogos (1/3), conversaççõs (1/3) e monólogos (1/3). O corpus foi publicado em 2012 pela Editora UFMG e pode ser baixado gratuitamente, junto com as suas especificações, anexos e outros materiais na seção “corpora” deste site.


O corpus C-ORAL-BRASIL II se divide em 3 subcorpora: o corpus formal em contexto natural, o corpus de mídia e o corpus de interações telefônicas. O corpus formal em contexto natural é constituído por 74 textos e 121.396 palavras. O corpus de mídia é constituído por 101 textos e 139.647 palavras. O corpus de interações telefônicas é constituído por 79 textos e 31.308 palavras. A compilação do C-ORAL-BRASIL II já foi concluída e o corpus estará disponível para download em breve. Todos os corpora são segmentados em unidades terminadas e unidades entonacionais, e fornecem o alinhamento som-texto através do software WinPitch.

As principais fases de compilação são:

  1. Gravação com equipamento wireless de alta qualidade;

  2. Transcrição por transcritores experientes segundo os critérios de segmentação mencionados e com base em critérios não sempre ortográficos, com o intuito de preservar fenômenos da fala que possam estar em curso de gramaticalização ou lexicalização;

  3. Revisão das transcrições;

  4. Segunda revisão durante o alinhamento com o software WinPitch de Philippe Martin;

  5. Etiquetagem léxico-morfossintática através do parser PALAVRAS de Eckhard Bick, especialmente treinado para este corpus e com a ajuda de um pré-processamento utilizando o ambiente computacional R;

  6. Etiquetagem informacional de um minicorpus de pelo menos 20 textos e 30.000 palavras com base na Language into Act Theory*.


*Veja-se:

CRESTI, E. Corpus di Italiano parlato. v. 1. Firenze: Accademia della Crusca, 2000.

CRESTI, E.; MONEGLIA, M. Informational patterning theory and the corpus-based description of spoken language: The compositionality issue in the topic-comment pattern. In: M. Moneglia; A. Panunzi (Eds.); Bootstrapping Information from Corpora in a Cross-Linguistic Perspective. p.13-45. Firenze: FUP, 2010.

MONEGLIA, M.; RASO, T. Notes on the Language into Act Theory. In: T. Raso; H. Mello (Eds.), Spoken corpora and linguistic studies. pp. 468-489. Amsterdam/Philadelphia: John Benjamins. 2014.