This is an old revision of the document!
Korpus monologů: ORATOR
Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla.
Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu ORTOFON, stejným postupem jako korpusy ORAL a ORTOFON je korpus ORATOR i lemmatizován a morfologicky značkován. Není vyvažován podle žádného z kritérií a v roce 2020 se plánuje jeho rozšíření.
Název | ORATOR |
---|---|
Počet pozic (tokenů) | 736 407 |
Počet pozic (tokenů) bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 578 398 |
Počet slovních tvarů (wordů) | 60 952 |
Počet nahrávek monologů | 318 |
Počet promluv | 68 727 |
Počet unikátních (různých) mluvčích | 332 |
Délka nahrávek [hh:mm:ss.ms] | 72:07:47.368 |