| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:orator [2025/05/27 10:57] – [Složení korpusu a sběr dat] martinawaclawicova | cnk:orator [2025/05/28 14:22] (aktuální) – [Jak citovat] michalkren |
|---|
| Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). | Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). |
| |
| V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). | V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFON, viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). |
| |
| Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: | Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: |
| ===== Informace o nahrávce ===== | ===== Informace o nahrávce ===== |
| |
| Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.). | Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzích 2 a 3 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.). |
| |
| Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce: | Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce: |
| * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení) | * podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení) |
| * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech | * určení [[seznamy:genre|žánrů]], které jsou totožné s žánry rozlišovanými v psaných korpusech |
| * jakému publiku je nahrávka určena (zda jde o **veřejnost**, nebo menší, profesní či zájmovou **skupinu**) | * jakému publiku je nahrávka určena (zda jde o veřejnost, nebo menší, profesní či zájmovou skupinu) |
| * speciální informace: určeno pro děti či čtené | * speciální informace: určeno pro děti či čtené |
| |
| ===== ORATOR v3 (2025) ===== | ===== ORATOR v3 (2025) ===== |
| |
| Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1.5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce. | Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce. |
| |
| |
| |
| <WRAP round tip 70%> | <WRAP round tip 70%> |
| Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR v3: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2025 dostupný z: [[https://www.korpus.cz]]. | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR: korpus monologů, verze 3 z 28. 5. 2025//. Ústav lingvistiky FF UK, Praha 2025. Dostupný z: [[https://www.korpus.cz]]. |
| |
| Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: [[https://www.korpus.cz]]. | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 2 z 18. 12. 2020//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z: [[https://www.korpus.cz]]. |
| |
| Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]]. | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 1 z 19. 12. 2019//. Ústav Českého národního korpusu FF UK, Praha 2019. Dostupný z: [[https://www.korpus.cz]]. |
| </WRAP> | </WRAP> |
| |