AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
en:cnk:orator [2019/12/19 14:12] – created michalkrenen:cnk:orator [2021/03/08 13:26] (current) – [How to cite] zuzanakomrskova
Line 1: Line 1:
-====== Korpus monologů: ORATOR ======+====== Corpus of monologues: ORATOR ======
  
-Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostecho kterých jsou předem informováni a na něž se mohou připravitMluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situacíData tohoto typu v mluvených korpusech češtiny dosud chyběla.+<WRAP right 35%> 
 +^ <fs medium>Name</fs> | <fs medium>[[cnk:orator|ORATOR]]•v1</fs> | <fs medium>[[cnk:orator|ORATOR]]•v2</fs>
 +^ Number of [[pojmy:token|positions (tokens)]] | 736 407 | 1 535 609 | 
 +^ Number of [[pojmy:token|positions (tokens)]] without puctuationhesitations and interjections | 578 398 | 1 207 255 | 
 +^ Number of [[pojmy:word| word forms (word)]] | 60 952 | 97 816 | 
 +^ Number of [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|conversations recorded]] | 318 | 489 | 
 +^ Number of [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|utterances]] | 68 727 | 147 867 | 
 +^ Number of unique (different) speakers| 332 | 468 | 
 +^ Length of recordings [hh:mm:ss.ms] | 72:07:47.368 | 148:51:51.56 | 
 +</WRAP>
  
-Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]], stejným postupem jako korpusy ORAL a ORTOFON je korpus ORATOR i [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]]Není vyvažován podle žádného z kritérií v roce 2020 se plánuje jeho rozšíření.+The ORATOR corpus contains monologues by native Czech speakersThe typical situations include lecture, instruction, guided tour, welcome address, sermon etc. The corpus is not balanced in any way. The speech is usually prepared and the speaker has to fit within the given time frame. To our knowledge, there is no corpus with this kind of data available for Czech.
  
-<WRAP right 35%> +Transcription rules, linking to the corresponding audio track and most metadata follow the [[en:cnk:ortofon|ORTOFON]] and [[en:cnk:oral|ORAL]] corpora, structural attributes used in ORATOR are described [[pojmy:atributy_strukturni|here]] (Czech only). The corpus is [[en:cnk:lemtag_mluv|lemmatized and morphologically tagged]] in the same way as the ORAL and ORTOFON corpora. 
-^ <fs medium>Název</fs> | <fs medium>[[cnk:orator|ORATOR]]</fs> | + 
-^ Počet [[pojmy:token|pozic (tokenů)]] | 736 407 |   +An updated version 2 of this corpus was published in 2020, with more than twice as much data and featuring many small improvements in the consistency of the transcription and in the annotation of the corpus. 
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 578 398 | + 
-^ Počet [[pojmy:wordslovních tvarů (wordů)]] | 60 952 |   +===== How to cite ===== 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek monologů]] | 318 | + 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 68 727 | +<WRAP round tip 70%> 
-^ Počet unikátních (různých) mluvčích | 332 |   +Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.//ORATOR v2: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020. Retrieved from [[https://www.korpus.cz]]. 
-^ Délka nahrávek [hh:mm:ss.ms] | 72:07:47.368 |  + 
 +Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.//ORATOR v1Korpus monologů//Ústav Českého národního korpusu FF UK, Praha 2019. Retrieved from [[https://www.korpus.cz]].
 </WRAP> </WRAP>