AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:orator [2025/05/26 13:40] – [Morfologické značkování korpusu ORATOR] martinawaclawicovacnk:orator [2025/05/28 14:22] (aktuální) – [Jak citovat] michalkren
Řádek 18: Řádek 18:
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
  
-Cílem korpusu je představit různé typy monologů, které se v mluveném jazyce objevují a jež jsme schopni zachytit. Nejedná se tedy pouze o přednášky, jak bývá u tohoto typu korpusu obvyklé, ale jsou zahrnuty i velmi krátké monology, jako jsou úvody různých společenských akcí, přípitky, uvítání hostů, vyhlášení výsledků soutěží apod. Mluvčí při nich často reprezentuje určitou instituci, vědní nebo zájmový obor či má jasně vymezenou společenskou roli. Získaný materiál byl rozčleněn do 12 typů situací (viz tabulka **Atributy pro korpus ORATOR: údaje k nahrávce** na [[pojmy:atributy_strukturni|stránce shrnující strukturní atributy]] dostupné v korpusech ČNK).+Cílem korpusu je představit různé typy monologů, které se v mluveném jazyce objevují a jež jsme schopni zachytit. Nejedná se tedy pouze o přednášky, jak bývá u tohoto typu korpusu obvyklé, ale jsou zahrnuty i velmi krátké monology, jako jsou úvody různých společenských akcí, přípitky, uvítání hostů, vyhlášení výsledků soutěží apod. Mluvčí při nich často reprezentuje určitou instituci, vědní nebo zájmový obor či má jasně vymezenou společenskou roli. Získaný materiál byl rozčleněn do 12 typů situací (viz tabulka [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_orator 
 +|Strukturní atributy korpusu ORATOR]]).
  
 Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, který jednotlivé mluvčí uvádí, nebo projevy následující v těsném sledu. Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, který jednotlivé mluvčí uvádí, nebo projevy následující v těsném sledu.
Řádek 35: Řádek 36:
 Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]).  Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). 
  
-V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (viz [[cnk:ortofon:pravidla|Transkripce v korpusu ORTOFON]]). +V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFON, viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). 
  
 Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky:
Řádek 51: Řádek 52:
 ===== Informace o nahrávce ===== ===== Informace o nahrávce =====
  
-Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).+Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzích a 3 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).
  
 Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce: Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce:
Řádek 57: Řádek 58:
   * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)   * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)
   * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech   * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech
-  * jakému publiku je nahrávka určena (zda jde o **veřejnost**, nebo menší, profesní či zájmovou **skupinu**)+  * jakému publiku je nahrávka určena (zda jde o veřejnost, nebo menší, profesní či zájmovou skupinu)
   * speciální informace: určeno pro děti či čtené   * speciální informace: určeno pro děti či čtené
  
Řádek 70: Řádek 71:
 ===== ORATOR v3 (2025) ===== ===== ORATOR v3 (2025) =====
  
-Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1.5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce.+Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce.
  
  
Řádek 80: Řádek 81:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR v3Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2025 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR: korpus monologů, verze 3 z 28. 5. 2025//. Ústav lingvistiky FF UK, Praha 2025. Dostupný z: [[https://www.korpus.cz]].
  
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 2 z 18. 12. 2020//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z: [[https://www.korpus.cz]].
  
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 1 z 19. 12. 2019//. Ústav Českého národního korpusu FF UK, Praha 2019. Dostupný z: [[https://www.korpus.cz]].
 </WRAP> </WRAP>