| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:orator [2025/05/28 13:45] – [Jak citovat] martinawaclawicova | cnk:orator [2026/01/22 16:08] (aktuální) – [Morfologické značkování korpusu ORATOR] krivan |
|---|
| ===== Morfologické značkování korpusu ORATOR ===== | ===== Morfologické značkování korpusu ORATOR ===== |
| |
| Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). | Korpus ORATOR v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). |
| |
| V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFON, viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). | V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFON, viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|Morfologické značkování v korpusu ORTOFON]]). |
| ===== ORATOR v3 (2025) ===== | ===== ORATOR v3 (2025) ===== |
| |
| Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výš]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce. | Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle anotačního standardu ČNK ([[cnk:orator#morfologicke_znackovani_korpusu_orator|viz výše]]). Nově je také do korpusu začleněn atribut [[https://corpy.readthedocs.io/en/stable/guides/phonetics_cs.html|genfon]], který uvádí automaticky generovanou fonetickou podobu slova. Dále byla provedena řada oprav transkripce. |
| |
| |
| |
| <WRAP round tip 70%> | <WRAP round tip 70%> |
| Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR v3: korpus monologů, verze 3 z 28. 5. 2025//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z: [[https://www.korpus.cz]]. | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J.: //ORATOR: korpus monologů, verze 3 z 28. 5. 2025//. Ústav lingvistiky FF UK, Praha 2025. Dostupný z: [[https://www.korpus.cz]]. |
| |
| Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v2: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z: [[https://www.korpus.cz]]. | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 2 z 18. 12. 2020//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z: [[https://www.korpus.cz]]. |
| |
| Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR v1: Korpus monologů//. Ústav Českého národního korpusu FF UK, Praha 2019. Dostupný z: [[https://www.korpus.cz]]. | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: //ORATOR: korpus monologů, verze 1 z 19. 12. 2019//. Ústav Českého národního korpusu FF UK, Praha 2019. Dostupný z: [[https://www.korpus.cz]]. |
| </WRAP> | </WRAP> |
| |