Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:orator [2025/05/27 10:57] – [Složení korpusu a sběr dat] martinawaclawicova
+++ cnk:orator [2026/06/30 11:56] (aktuální) – [Korpus monologů: ORATOR] martinawaclawicova
@@ Řádek 3: / Řádek 3: @@
 Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla.
-Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]]. Stejným postupem jako korpus ORTOFON je korpus ORATOR i lemmatizován a morfologicky značkován. Transkripce je jednoúrovňová, ortografická. Korpus není vyvažován podle žádného z kritérií.
+Transkripční pravidla, způsob propojení se zvukem (použití nástroje [[https://archive.mpi.nl/tla/elan|ELAN]], vyvinutého v Max Planck Institute for Psycholinguistics v Nijmegen((ELAN (Version 7.1) [Computer software]. (2026). Nijmegen: Max Planck Institute for Psycholinguistics. Retrieved from https://archive.mpi.nl/tla/elan
+))) a většina metadat jsou stejné jako v korpusu [[cnk:ortofon|ORTOFON]]. Stejným postupem jako korpus ORTOFON je korpus ORATOR i lemmatizován a morfologicky značkován. Transkripce je jednoúrovňová, ortografická. Korpus není vyvažován podle žádného z kritérií.
 <WRAP 45%>
@@ Řádek 34: / Řádek 35: @@
 ===== Morfologické značkování korpusu ORATOR =====
-Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]).
+Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]).
-V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]).
+V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFON, viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]).
 Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky:
@@ Řádek 52: / Řádek 53: @@
 ===== Informace o nahrávce =====
-Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).
+Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzích 2 a 3 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).
 Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce:
@@ Řádek 58: / Řádek 59: @@
   * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)
   * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech
-  * jakému publiku je nahrávka určena (zda jde o **veřejnost**, nebo menší, profesní či zájmovou **skupinu**)
+  * jakému publiku je nahrávka určena (zda jde o veřejnost, nebo menší, profesní či zájmovou skupinu)
   * speciální informace: určeno pro děti či čtené
@@ Řádek 71: / Řádek 72: @@
 ===== ORATOR v3 (2025) =====
-Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1.5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce.
+Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle anotačního standardu ČNK ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výše]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce.
@@ Řádek 81: / Řádek 82: @@
 <WRAP round tip 70%>
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR v3: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2025 dostupný z: [[https://www.korpus.cz]].
+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR: korpus monologů, verze 3 z 28. 5. 2025//. Ústav lingvistiky FF UK, Praha 2025. Dostupný z: [[https://www.korpus.cz]].
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: [[https://www.korpus.cz]].
+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 2 z 18. 12. 2020//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z: [[https://www.korpus.cz]].
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].
+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 1 z 19. 12. 2019//. Ústav Českého národního korpusu FF UK, Praha 2019. Dostupný z: [[https://www.korpus.cz]].
 </WRAP>
 ===== Související odkazy =====

Historie: • lestrepublicain • skript2012_znacky • net • eebo • etalon

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence