This is an old revision of the document!
Corpus of monologues: ORATOR
The corpus ORATOR contains monologues by native Czech speakers.
Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu ORTOFON, stejným postupem jako korpusy ORAL a ORTOFON je korpus ORATOR i lemmatizován a morfologicky značkován. Není vyvažován podle žádného z kritérií a v roce 2020 se plánuje jeho rozšíření.
Název | ORATOR |
---|---|
Počet positions (tokens) | 736 407 |
Počet positions (tokens) without puctuation, hesitations and interjections | 578 398 |
Počet word forms (word) | 60 952 |
Počet conversations recorded | 318 |
Počet utterances | 68 727 |
Number of unique (different) speakers | 332 |
Length of recordings [hh:mm:ss.ms] | 72:07:47.368 |