AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:orator [2019/12/19 01:18] – tabulka statistik David Lukešcnk:orator [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy Václav Cvrček (admin)
Řádek 3: Řádek 3:
 Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla. Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla.
  
-Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]], stejným postupem jako korpusy [[cnk:ortofon|ORAL]] a ORTOFON je korpus ORATOR i lemmatizován a morfologicky značkován. Není vyvažován podle žádného z kritérií a v roce 2020 se plánuje jeho rozšíření.+Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]], stejným postupem jako korpusy ORAL a ORTOFON je korpus ORATOR i [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]]. Transkripce je jednoúrovňová, ortografickáKorpus není vyvažován podle žádného z kritérií a v roce 2020 proběhlo jeho rozšíření ve verzi 2 na více než dvojnásobnou velikost oproti verzi 1. Krom toho došlo k mnoha drobným vylepšením v konzistentnosti transkripce a v anotaci. Obě verze zůstávají dostupné.
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název</fs> | <fs medium>[[cnk:orator|ORATOR]]</fs>+^ <fs medium>Název</fs> | <fs medium>[[cnk:orator|ORATOR]]•v1</fs> | <fs medium>[[cnk:orator|ORATOR]]•v2</fs> | 
-^ Počet [[pojmy:token|pozic (tokenů)]] | 736 407 |   +^ Počet [[pojmy:token|pozic (tokenů)]] | 736 407 | 1 535 609 | 
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 578 398 | +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 578 398 | 1 207 255 
-^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 60 952 |   +^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 60 952 | 97 816 |   
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek monologů]] | 318 | +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek monologů]] | 318 | 489 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 68 727 | +^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 68 727 | 147 867 
-^ Počet unikátních (různých) mluvčích | 332 |   +^ Počet unikátních (různých) mluvčích | 332 | 468 | 
-^ Délka nahrávek [hh:mm:ss.ms] | 72:07:47.368 |  +^ Délka nahrávek [hh:mm:ss.ms] | 72:07:47.368 | 148:51:51.56 |
 </WRAP> </WRAP>
  
Řádek 24: Řádek 24:
 Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, který jednotlivé mluvčí uvádí, nebo projevy následující v těsném sledu. Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, který jednotlivé mluvčí uvádí, nebo projevy následující v těsném sledu.
  
-Původními kritérii pro zařazení nahrávky do korpusu bylo, že nesmí jít o čtený projev a že se musí odehrát za přítomnosti publika. To znamená, že nesmí jít o projev připravený pro web, protože u něj není možné zjistit, zda nebyl pořizován opakovaně a dodatečně upravován, a tedy zaručit autentické zachycení monologu za obvyklých podmínek, kdy je mluvčí vystaven určitým očekáváním ze strany publika, je ovlivněn jeho přítomností a zároveň formou příslušné události. Při sběru dat jsme však opakovaně naráželi na fakt, že při určitých příležitostech je (částečně) čtená forma obvyklou součástí monologů, protože jde například o ceremoniály, kde je třeba dodržet formu (např. promoce), nebo dokonce právní závaznost (svatební obřad), součástí přednášky bývají citace, případně je projev tlumočen. Rozhodli jsme se tedy pro komplexnější doplnění obrazu monologů zařadit i malé množství (18 nahrávek) čtených nebo částečně čtených projevů. Ze stejných důvodů jsme vybrali i několik (celkem 9) nahrávek bez přítomnosti publika, zprostředkovaných široké veřejnosti přes internet; jde o přednášky nebo novoroční projevy. Každý z těchto typů tvoří asi 3 % rozsahu celého korpusu.+Původními kritérii pro zařazení nahrávky do korpusu bylo, že nesmí jít o čtený projev a že se musí odehrát za přítomnosti publika. To znamená, že nesmí jít o projev připravený pro web, protože u něj není možné zjistit, zda nebyl pořizován opakovaně a dodatečně upravován. Nelze tedy zaručit autentické zachycení monologu za obvyklých podmínek, kdy je mluvčí vystaven určitým očekáváním ze strany publika, je ovlivněn jeho přítomností a zároveň formou příslušné události. Při sběru dat jsme však opakovaně naráželi na fakt, že při určitých příležitostech je (částečně) čtená forma obvyklou součástí monologů, protože jde například o ceremoniály, kde je třeba dodržet formu (např. promoce), nebo dokonce právní závaznost (svatební obřad), součástí přednášky bývají citace, případně je projev tlumočen. Rozhodli jsme se tedy pro komplexnější doplnění obrazu monologů zařadit i malé množství (18 nahrávek) čtených nebo částečně čtených projevů. Ze stejných důvodů jsme vybrali i několik (celkem 9) nahrávek bez přítomnosti publika, zprostředkovaných široké veřejnosti přes internet; jde o přednášky nebo novoroční projevy. Každý z těchto typů tvoří asi 3 % rozsahu celého korpusu.
  
 Nahrávky byly pořizovány na různých místech ČR nebo byly  se souhlasem mluvčího staženy z internetu. Kromě výše uvedených 9 případů nahrávky vždy zachycují komunikační situaci za přítomnosti publika a v autentickém prostředí. Korpus není vyvažován ani podle genderu mluvčích, převažují v něm muži. Nahrávky byly pořizovány na různých místech ČR nebo byly  se souhlasem mluvčího staženy z internetu. Kromě výše uvedených 9 případů nahrávky vždy zachycují komunikační situaci za přítomnosti publika a v autentickém prostředí. Korpus není vyvažován ani podle genderu mluvčích, převažují v něm muži.
Řádek 30: Řádek 30:
 ===== Nové informace k nahrávce ===== ===== Nové informace k nahrávce =====
  
-Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení spojená s číslem (např. Janoušková_1805, Malý_1248).+Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).
  
 Přibyly ale nové, podrobnější informace k nahrávce: Přibyly ale nové, podrobnější informace k nahrávce:
Řádek 47: Řádek 47:
 ===== Jak citovat ===== ===== Jak citovat =====
  
-Kopřivová, M. – Laubeová, Z.  –  Lukeš, D.  –  Poukarová, P.: //ORATOR: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].+<WRAP round tip 70%> 
 +Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: [[https://www.korpus.cz]].
  
 +Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].
 +</WRAP>