AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:ortofon [2024/08/05 10:22] – [ORTOFON v3 (2024)] v3 není vyvážená vhorkycnk:ortofon [2026/01/22 16:07] (aktuální) – [Morfologické značkování korpusu ORTOFON] krivan
Řádek 33: Řádek 33:
 ===== Strukturní atributy korpusu ORTOFON ===== ===== Strukturní atributy korpusu ORTOFON =====
  
-Struktury a strukturní atributu korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]].+Struktury a strukturní atributy korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]].
  
  
 ===== Morfologické značkování korpusu ORTOFON ===== ===== Morfologické značkování korpusu ORTOFON =====
  
-Korpus ORTOFON v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). +Korpus ORTOFON v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. Jsou v něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//), využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). 
  
 V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč. Zvláštní varianty slov jsou odlišené vlastním sublemmatem (např. //poslúchat// pod lemmatem //poslouchat//), zvláštní tvary značkované jen v mluveném korpusu mají na poslední pozici tagu číslo ''%%9%%'' (např. tvar //jezdijó// má tag ''%%VB-P---3P-AAI-9%%'').  V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč. Zvláštní varianty slov jsou odlišené vlastním sublemmatem (např. //poslúchat// pod lemmatem //poslouchat//), zvláštní tvary značkované jen v mluveném korpusu mají na poslední pozici tagu číslo ''%%9%%'' (např. tvar //jezdijó// má tag ''%%VB-P---3P-AAI-9%%''). 
Řádek 83: Řádek 83:
 ===== ORTOFON v3 (2024) ===== ===== ORTOFON v3 (2024) =====
  
-V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 110 127 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. Stejně jako druhá verze není ani tato vyvážená. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav.+V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 2 445 793 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. Stejně jako druhá verze není ani tato vyvážená. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav.
  
 Korpus ORTOFON v3 je automaticky **anotován podle standardu SYN2020**, více viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|výš]]. Korpus ORTOFON v3 je automaticky **anotován podle standardu SYN2020**, více viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|výš]].
Řádek 96: Řádek 96:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
 +
 +**Korpus jako zdroj dat**
 +
 Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.:  //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: http://www.korpus.cz Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.:  //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: http://www.korpus.cz
  
Řádek 101: Řádek 104:
  
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
 +
 +**Literatura**
  
 Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897. Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.