AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:orator [2025/05/27 10:57] – [Složení korpusu a sběr dat] martinawaclawicovacnk:orator [2025/05/28 14:22] (aktuální) – [Jak citovat] michalkren
Řádek 36: Řádek 36:
 Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]).  Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). 
  
-V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). +V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFON, viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). 
  
 Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky:
Řádek 52: Řádek 52:
 ===== Informace o nahrávce ===== ===== Informace o nahrávce =====
  
-Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).+Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzích a 3 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).
  
 Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce: Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce:
Řádek 58: Řádek 58:
   * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)   * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)
   * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech   * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech
-  * jakému publiku je nahrávka určena (zda jde o **veřejnost**, nebo menší, profesní či zájmovou **skupinu**)+  * jakému publiku je nahrávka určena (zda jde o veřejnost, nebo menší, profesní či zájmovou skupinu)
   * speciální informace: určeno pro děti či čtené   * speciální informace: určeno pro děti či čtené
  
Řádek 71: Řádek 71:
 ===== ORATOR v3 (2025) ===== ===== ORATOR v3 (2025) =====
  
-Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1.5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce.+Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce.
  
  
Řádek 81: Řádek 81:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR v3Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2025 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR: korpus monologů, verze 3 z 28. 5. 2025//. Ústav lingvistiky FF UK, Praha 2025. Dostupný z: [[https://www.korpus.cz]].
  
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 2 z 18. 12. 2020//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z: [[https://www.korpus.cz]].
  
-Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 1 z 19. 12. 2019//. Ústav Českého národního korpusu FF UK, Praha 2019. Dostupný z: [[https://www.korpus.cz]].
 </WRAP> </WRAP>