AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:orator [2019/12/19 15:15] – [Složení korpusu a sběr dat] mariekoprivovacnk:orator [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy Václav Cvrček (admin)
Řádek 3: Řádek 3:
 Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla. Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla.
  
-Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]], stejným postupem jako korpusy ORAL a ORTOFON je korpus ORATOR i [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]]. Transkripce je jednoúrovňová, ortografická. Korpus není vyvažován podle žádného z kritérií a v roce 2020 se plánuje jeho rozšíření.+Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]], stejným postupem jako korpusy ORAL a ORTOFON je korpus ORATOR i [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]]. Transkripce je jednoúrovňová, ortografická. Korpus není vyvažován podle žádného z kritérií a v roce 2020 proběhlo jeho rozšíření ve verzi 2 na více než dvojnásobnou velikost oproti verzi 1. Krom toho došlo k mnoha drobným vylepšením v konzistentnosti transkripce a v anotaci. Obě verze zůstávají dostupné.
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název</fs> | <fs medium>[[cnk:orator|ORATOR]]</fs>+^ <fs medium>Název</fs> | <fs medium>[[cnk:orator|ORATOR]]•v1</fs> | <fs medium>[[cnk:orator|ORATOR]]•v2</fs> | 
-^ Počet [[pojmy:token|pozic (tokenů)]] | 736 407 |   +^ Počet [[pojmy:token|pozic (tokenů)]] | 736 407 | 1 535 609 | 
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 578 398 | +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 578 398 | 1 207 255 
-^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 60 952 |   +^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 60 952 | 97 816 |   
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek monologů]] | 318 | +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek monologů]] | 318 | 489 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 68 727 | +^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 68 727 | 147 867 
-^ Počet unikátních (různých) mluvčích | 332 |   +^ Počet unikátních (různých) mluvčích | 332 | 468 | 
-^ Délka nahrávek [hh:mm:ss.ms] | 72:07:47.368 |  +^ Délka nahrávek [hh:mm:ss.ms] | 72:07:47.368 | 148:51:51.56 |
 </WRAP> </WRAP>
  
Řádek 30: Řádek 30:
 ===== Nové informace k nahrávce ===== ===== Nové informace k nahrávce =====
  
-Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení spojená s číslem (např. Janoušková_1805, Malý_1248).+Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).
  
 Přibyly ale nové, podrobnější informace k nahrávce: Přibyly ale nové, podrobnější informace k nahrávce:
Řádek 47: Řádek 47:
 ===== Jak citovat ===== ===== Jak citovat =====
  
-Kopřivová, M. – Laubeová, Z.  –  Lukeš, D.  –  Poukarová, P.: //ORATOR: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].+<WRAP round tip 70%> 
 +Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: [[https://www.korpus.cz]].
  
 +Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].
 +</WRAP>