Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:ortofon [2024/08/05 10:22] – [ORTOFON v3 (2024)] v3 není vyvážená vhorky
+++ cnk:ortofon [2026/06/30 11:59] (aktuální) – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] martinawaclawicova
@@ Řádek 1: / Řádek 1: @@
 ====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ======
-Korpus ORTOFON zachycuje spontánní mluvený jazyk používaný v neformálních situacích mezi mluvčími, kteří se znají. Navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk:oral|ORAL]]. Nahrávky jsou přepisovány ve dvou stopách – ortografické a fonetické. Společně s korpusem [[cnk:dialekt|DIALEKT]] se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Podobně jako v korpusu [[cnk:oral2013|ORAL2013]] pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace. Korpus je lemmatizován a morfologicky značkován. Přepis je propojen se zvukovou stopou a v korpusovém rozhraní KonText si lze zvukový záznam přehrát.
+Korpus ORTOFON zachycuje spontánní mluvený jazyk používaný v neformálních situacích mezi mluvčími, kteří se znají. Navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk:oral|ORAL]]. Nahrávky jsou přepisovány za pomoci nástroje [[https://archive.mpi.nl/tla/elan|ELAN]], vyvinutého v Max Planck Institute for Psycholinguistics v Nijmegen((ELAN (Version 7.1) [Computer software]. (2026). Nijmegen: Max Planck Institute for Psycholinguistics. Retrieved from https://archive.mpi.nl/tla/elan
+)), ve dvou stopách – ortografické a fonetické. Společně s korpusem [[cnk:dialekt|DIALEKT]] se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Podobně jako v korpusu [[cnk:oral2013|ORAL2013]] pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace. Korpus je lemmatizován a morfologicky značkován. Přepis je propojen se zvukovou stopou a v korpusovém rozhraní KonText si lze zvukový záznam přehrát.
 Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikon, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, ale přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.
@@ Řádek 33: / Řádek 34: @@
 ===== Strukturní atributy korpusu ORTOFON =====
-Struktury a strukturní atributu korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]].
+Struktury a strukturní atributy korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]].
 ===== Morfologické značkování korpusu ORTOFON =====
-Korpus ORTOFON v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]).
+Korpus ORTOFON v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]).
 V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč. Zvláštní varianty slov jsou odlišené vlastním sublemmatem (např. //poslúchat// pod lemmatem //poslouchat//), zvláštní tvary značkované jen v mluveném korpusu mají na poslední pozici tagu číslo ''%%9%%'' (např. tvar //jezdijó// má tag ''%%VB-P---3P-AAI-9%%'').
@@ Řádek 83: / Řádek 84: @@
 ===== ORTOFON v3 (2024) =====
-V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 110 127 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. Stejně jako druhá verze není ani tato vyvážená. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav.
+V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 2 445 793 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. Stejně jako druhá verze není ani tato vyvážená. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav.
 Korpus ORTOFON v3 je automaticky **anotován podle standardu SYN2020**, více viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|výš]].
@@ Řádek 96: / Řádek 97: @@
 <WRAP round tip 70%>
+**Korpus jako zdroj dat**
 Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.:  //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: http://www.korpus.cz
@@ Řádek 101: / Řádek 105: @@
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
+**Literatura**
 Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.
@@ Řádek 108: / Řádek 114: @@
 Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D. (2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382.
 </WRAP>
 ===== Související odkazy =====

Historie: • lestrepublicain • lists • eebo • orator • hotko • net • onomos

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence