AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:orator [2025/04/28 13:25] – [ORATOR v2 (2020)] martinawaclawicovacnk:orator [2025/05/28 14:22] (aktuální) – [Jak citovat] michalkren
Řádek 3: Řádek 3:
 Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla. Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla.
  
-Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]]. Stejným postupem jako korpus ORTOFON je korpus ORATOR i [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]]. Transkripce je jednoúrovňová, ortografická. Korpus není vyvažován podle žádného z kritérií.+Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]]. Stejným postupem jako korpus ORTOFON je korpus ORATOR i lemmatizován a morfologicky značkován. Transkripce je jednoúrovňová, ortografická. Korpus není vyvažován podle žádného z kritérií.
  
 <WRAP 45%> <WRAP 45%>
Řádek 18: Řádek 18:
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
  
-Cílem korpusu je představit různé typy monologů, které se v mluveném jazyce objevují a jež jsme schopni zachytit. Nejedná se tedy pouze o přednášky, jak bývá u tohoto typu korpusu obvyklé, ale jsou zahrnuty i velmi krátké monology, jako jsou úvody různých společenských akcí, přípitky, uvítání hostů, vyhlášení výsledků soutěží apod. Mluvčí při nich často reprezentuje určitou instituci, vědní nebo zájmový obor či má jasně vymezenou společenskou roli. Získaný materiál byl rozčleněn do 12 typů situací (viz tabulka **Atributy pro korpus ORATOR: údaje k nahrávce** na [[pojmy:atributy_strukturni|stránce shrnující strukturní atributy]] dostupné v korpusech ČNK).+Cílem korpusu je představit různé typy monologů, které se v mluveném jazyce objevují a jež jsme schopni zachytit. Nejedná se tedy pouze o přednášky, jak bývá u tohoto typu korpusu obvyklé, ale jsou zahrnuty i velmi krátké monology, jako jsou úvody různých společenských akcí, přípitky, uvítání hostů, vyhlášení výsledků soutěží apod. Mluvčí při nich často reprezentuje určitou instituci, vědní nebo zájmový obor či má jasně vymezenou společenskou roli. Získaný materiál byl rozčleněn do 12 typů situací (viz tabulka [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_orator 
 +|Strukturní atributy korpusu ORATOR]]).
  
 Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, který jednotlivé mluvčí uvádí, nebo projevy následující v těsném sledu. Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, který jednotlivé mluvčí uvádí, nebo projevy následující v těsném sledu.
Řádek 24: Řádek 25:
 Původními kritérii pro zařazení nahrávky do korpusu bylo, že nesmí jít o čtený projev a že se musí odehrát za přítomnosti publika. To znamená, že nesmí jít o projev připravený pro web, protože u něj není možné zjistit, zda nebyl pořizován opakovaně a dodatečně upravován. Nelze tedy zaručit autentické zachycení monologu za obvyklých podmínek, kdy je mluvčí vystaven určitým očekáváním ze strany publika, je ovlivněn jeho přítomností a zároveň formou příslušné události. Při sběru dat jsme však opakovaně naráželi na fakt, že při určitých příležitostech je (částečně) čtená forma obvyklou součástí monologů, protože jde například o ceremoniály, kde je třeba dodržet formu (např. promoce), nebo dokonce právní závaznost (svatební obřad), součástí přednášky bývají citace, případně je projev tlumočen. Rozhodli jsme se tedy pro komplexnější doplnění obrazu monologů zařadit i malé množství (18 nahrávek) čtených nebo částečně čtených projevů. Ze stejných důvodů jsme vybrali i několik (celkem 9) nahrávek bez přítomnosti publika, zprostředkovaných široké veřejnosti přes internet; jde o přednášky nebo novoroční projevy. Každý z těchto typů tvoří asi 3 % rozsahu celého korpusu. Původními kritérii pro zařazení nahrávky do korpusu bylo, že nesmí jít o čtený projev a že se musí odehrát za přítomnosti publika. To znamená, že nesmí jít o projev připravený pro web, protože u něj není možné zjistit, zda nebyl pořizován opakovaně a dodatečně upravován. Nelze tedy zaručit autentické zachycení monologu za obvyklých podmínek, kdy je mluvčí vystaven určitým očekáváním ze strany publika, je ovlivněn jeho přítomností a zároveň formou příslušné události. Při sběru dat jsme však opakovaně naráželi na fakt, že při určitých příležitostech je (částečně) čtená forma obvyklou součástí monologů, protože jde například o ceremoniály, kde je třeba dodržet formu (např. promoce), nebo dokonce právní závaznost (svatební obřad), součástí přednášky bývají citace, případně je projev tlumočen. Rozhodli jsme se tedy pro komplexnější doplnění obrazu monologů zařadit i malé množství (18 nahrávek) čtených nebo částečně čtených projevů. Ze stejných důvodů jsme vybrali i několik (celkem 9) nahrávek bez přítomnosti publika, zprostředkovaných široké veřejnosti přes internet; jde o přednášky nebo novoroční projevy. Každý z těchto typů tvoří asi 3 % rozsahu celého korpusu.
  
-Nahrávky byly pořizovány na různých místech ČR nebo byly  se souhlasem mluvčího staženy z internetu. Kromě výše uvedených 9 případů nahrávky vždy zachycují komunikační situaci za přítomnosti publika a v autentickém prostředí. Korpus není vyvažován ani podle genderu mluvčích, převažují v něm muži.+Nahrávky byly pořizovány na různých místech ČR nebo byly se souhlasem mluvčího staženy z internetu. Kromě výše uvedených 9 případů nahrávky vždy zachycují komunikační situaci za přítomnosti publika a v autentickém prostředí. Korpus není vyvažován ani podle genderu mluvčích, převažují v něm muži.
  
 ===== Strukturní atributy korpusu ORATOR ===== ===== Strukturní atributy korpusu ORATOR =====
Řádek 35: Řádek 36:
 Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]).  Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). 
  
-V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč. Zvláštní varianty slov jsou odlišené vlastním sublemmatem (např. //poslúchat// pod lemmatem //poslouchat//)zvláštní tvary značkované jen mluveném korpusu mají na poslední pozici tagu číslo ''%%9%%'' (např. tvar //jezdijó// má tag ''%%VB-P---3P-AAI-9%%''). +V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFONviz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). 
  
 Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky:
Řádek 51: Řádek 52:
 ===== Informace o nahrávce ===== ===== Informace o nahrávce =====
  
-Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).+Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzích a 3 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).
  
 Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce: Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce:
Řádek 57: Řádek 58:
   * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)   * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)
   * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech   * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech
-  * jakému publiku je nahrávka určena (zda jde o **veřejnost**, nebo menší, profesní či zájmovou **skupinu**)+  * jakému publiku je nahrávka určena (zda jde o veřejnost, nebo menší, profesní či zájmovou skupinu)
   * speciální informace: určeno pro děti či čtené   * speciální informace: určeno pro děti či čtené
  
Řádek 66: Řádek 67:
 ===== ORATOR v2 (2020) ===== ===== ORATOR v2 (2020) =====
  
-V roce 2020 proběhlo rozšíření korpusu ORATOR na více než dvojnásobnou velikost (více než 1,5 mil. tokenů). Korpus se skládá z 489 nahrávek 468 mluvčích z let 2005-2019. Krom nárůstu velikosti korpusu došlo také k mnoha drobným vylepšením v konzistentnosti transkripce a v anotaci. Korpus ORATOR v2 je označkovaný [[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš).+V roce 2020 proběhlo rozšíření korpusu ORATOR na více než dvojnásobnou velikost (více než 1,5 mil. tokenů). Korpus se skládá z 489 nahrávek 468 mluvčích z let 2005-2019. Krom nárůstu velikosti korpusu došlo také k mnoha drobným vylepšením v konzistentnosti transkripce a v anotaci. Korpus ORATOR v2 je označkovaný původní morfologickou značkou ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). 
 ===== ORATOR v3 (2025) ===== ===== ORATOR v3 (2025) =====
  
-Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1.5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020. Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. A dále byla provedena řada oprav transkripce.+Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce.
  
  
Řádek 79: Řádek 81:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR v3Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2025 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR: korpus monologů, verze 3 z 28. 5. 2025//. Ústav lingvistiky FF UK, Praha 2025. Dostupný z: [[https://www.korpus.cz]].
  
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 2 z 18. 12. 2020//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z: [[https://www.korpus.cz]].
  
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 1 z 19. 12. 2019//. Ústav Českého národního korpusu FF UK, Praha 2019. Dostupný z: [[https://www.korpus.cz]].
 </WRAP> </WRAP>