~~NOTOC~~ ====== Korpus Koditex ====== Koditex je [[pojmy:synchronni|synchronní]], [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. ^ Název ^^ Koditex ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 10 880 550 | ^ ::: ^ Počet pozic bez interpunkce | 9 139 930 | ^ ::: ^ Počet tokenů bez interpunkce vstupujících do faktorové analýzy (include=„yes“) | 9 039 137 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 509 764 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 205 592 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet textových vzorků | 3 428 | ^ ::: ^ Počet vět | 719 739 | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | ANO | ^ ::: ^ Rok zveřejnění | 2018 | Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly [[pojmy:lemma|lemmatizovány]], [[pojmy:tag|morfologicky označkovány]] dvěma různými systémy, dále v nich byly anotovány [[seznamy:frazemy|frazémy]] a tzv. pojmenované entity -- [[http://ufal.mff.cuni.cz/nametag|named entities]]). Z hlediska [[pojmy:psany|psanosti]] a [[pojmy:mluveny?s[]=korpus&s[]=mluveného&s[]=jazyka|mluvenosti]] se tak jedná o korpus smíšený. Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro //**ko**rpus **di**verzifikovaných **tex**tů//. ===== Složení korpusu ===== Na rozdíl od ostatních synchronních korpusů ČNK (např. [[cnk:syn2015|SYN2015]]) se Koditex neskládá z celých textů, ale pouze ze vzorků originálních textů, které jsou označeny pomocí struktury ''''. Ještě před samotným vzorkováním shromážděných dat a jejich začleněním do finální podoby korpusu jsme se rozhodli texty přesahující délku 5000 slov rozdělit do souvislých vzorků (chunks) o délce 2000–5000 slov (se zachováním hranic vět). Toto řešení představuje řadu výhod, a to zejména celkově větší rozmanitost korpusu, co se týče jak registrů, tak žánrů / textových typů. Korpus tvoří texty ze tří komunikačních módů (mode): * psaného jazyka (//wri//), * mluveného jazyka (//spo//) a * internetové komunikace (//web//). Každý ze tří módů se dále dělí do dvou a více divizí (division; např. v rámci psaného jazyka se jedná o beletrii, oborovou literaturu, noviny a časopisy a soukromou komunikaci). Divize se dále dělí do tříd (class; například kriminální román), s cílovou délkou přibližně 200 000 slov na třídu (v závislosti na dostupnosti dat). Pro psaný mód byl ještě zaveden mezistupeň tzv. nadtřídy (superclass), která seskupuje některé třídy textů. Texty původně zařazené do korpusu bylo v některých případech třeba z analýzy registrové variability vyloučit. V takovém případě mají v metadatech příznak ''include="no"''. V podrobné tabulce reflektující složení korpusu Koditex jsou zohledněny pouze texty, které do MDA vstupovaly (tedy s příznakem ''include="yes"''): ^ MODE ^ DIVISION ^ SUPERCLASS ^ CLASS ^ Tokeny ^ Vzorky ^ | spo (mluvená komunikace) | int (interaktivní) | | bru (nepřipravené veřejné / vysílané rozhovory) | 221 812 | 90 | | ::: | ::: | | eli (formální rozhovor) | 201 690 | 82 | | ::: | ::: | | inf (neformální rozhovor) | 208 565 | 86 | | ::: | nin (neinteraktivní) | | wbs (připravený/čtený projev) | 213 201 | 71 | | web (internetová komunikace) | mul (mnohosměrná komunikace) | | dis (internetové diskuse) | 197 948 | 87 | | ::: | ::: | | fcb (facebookové statusy) | 199 418 | 91 | | ::: | ::: | | for (webová fóra) | 200 104 | 85 | | ::: | uni (jednosměrná komunikace) | | blo (blogy) | 204 356 | 74 | | ::: | ::: | | wik (wikipedie) | 201 691 | 84 | | wri (psaná komunikace) | fic (beletrie) | nov (romány) | crm (detektivky) | 190 026 | 68 | | ::: | ::: | ::: | fan (fantasy) | 189 432 | 69 | | ::: | ::: | ::: | gen (bez bližšího určení) | 193 667 | 67 | | ::: | ::: | ::: | lov (milostné) | 189 893 | 70 | | ::: | ::: | ::: | scf (sci-fi) | 188 703 | 68 | | ::: | ::: | | col (povídky) | 195 595 | 70 | | ::: | ::: | | scr (scénáře a dramata) | 182 689 | 76 | | ::: | ::: | | ver (poezie a písně) | 205 837 | 76 | | ::: | nfc (oborová literatura) | pop (populárně-naučná) | fts (formální a technické vědy) | 207 607 | 68 | | ::: | ::: | ::: | hum (humanitní vědy) | 204 837 | 74 | | ::: | ::: | ::: | nat (přírodní vědy) | 204 751 | 71 | | ::: | ::: | ::: | ssc (společenské vědy) | 203 698 | 68 | | ::: | ::: | pro (profesní literatura) | fts (formální a technické vědy) | 210 010 | 71 | | ::: | ::: | ::: | hum (humanitní vědy) | 207 916 | 69 | | ::: | ::: | ::: | nat (přírodní vědy) | 209 580 | 70 | | ::: | ::: | ::: | ssc (společenské vědy) | 209 385 | 72 | | ::: | ::: | sci (vědecká literatura) | fts (formální a technické vědy) | 202 932 | 67 | | ::: | ::: | ::: | hum (humanitní vědy) | 204 300 | 71 | | ::: | ::: | ::: | nat (přírodní vědy) | 206 716 | 72 | | ::: | ::: | ::: | ssc (společenské vědy) | 205 358 | 67 | | ::: | ::: | | adm (administrativa)* | 203 542 | 82 | | ::: | ::: | | enc (encyklopedie) | 203 957 | 73 | | ::: | ::: | | mem (auto-/biografie) | 203 390 | 71 | | ::: | nmg (noviny a časopisy) | lei (volnočasová publicistika) | hou (bydlení, zahrada, hobby) | 207 499 | 68 | | ::: | ::: | ::: | int (zajímavosti ze světa) | 209 232 | 69 | | ::: | ::: | ::: | lif (životní styl) | 203 124 | 72 | | ::: | ::: | ::: | mix (víkendové přílohy) | 205 310 | 75 | | ::: | ::: | ::: | sct (bulvár) | 201 417 | 73 | | ::: | ::: | ::: | spo (sport) | 199 238 | 70 | | ::: | ::: | new (tradiční publicistika) | com (komentáře) | 205 372 | 68 | | ::: | ::: | ::: | cul (kultura) | 205 690 | 68 | | ::: | ::: | ::: | eco (ekonomika) | 211 481 | 70 | | ::: | ::: | ::: | fre (volnočasové aktivity) | 208 532 | 71 | | ::: | ::: | ::: | pol (politika) | 206 893 | 70 | | ::: | ::: | ::: | rep (reportáže) | 206 377 | 70 | | ::: | pri (soukromá komunikace) | | cor (dopisy)* | 96 366 | 68 | | **Celkem** | | | | **9 039 137** | **3292** | * V těchto třídách byly povoleny vzorky o délce minimálně 1000 tokenů. Texty v těchto třídách byly nejprve sjednoceny (podle autora a části dne) a poté rozděleny do vzorků o velikosti 2000–5000 slov. ==== Vzorky ==== Původním záměrem bylo mít veškeré vzorky o přibližně stejné délce (mezi 2000--5000 slovy). Ukázalo se, že tento záměr byl u některých tříd nerealistický vzhledem k typické délce textů, která v těchto daných třídách bývá kratší. Nabízela se dvě možná řešení. U některých tříd (např. //pri// či //adm//) jsme se rozhodli snížit spodní hranici na 1000 slov, což zároveň snížilo vliv textů, které byly v dané kategorii delší, než je obvyklé. V jiných třídách (např. //fcb//) se původní data skládala z velkého množství fragmentů, z nichž většina měla délku méně než 1000 slov. V takových případech došlo nejprve ke shlukování textů podle autora a času a teprve pak se přistoupilo k samotnému vzorkování. {{:en:cnk:chunk-length-histogram.png?nolink&600|}} Koditex se zaměřuje na současnou podobu jazyka, přičemž nejstarší texty byly publikovány v roce 1990. {{:en:cnk:years-hist.png?nolink&600|}} U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). ^ Class ^ Překlady (slova) ^ Originály (slova) ^ % překladů ^ | LOV | 210,250 | 30,981 | 87,2 % | | CRM | 202,921 | 37,677 | 84,3 % | | GEN | 196,924 | 43,497 | 81,9 % | | FAN | 188,848 | 52,778 | 78,2 % | | SCF | 174,340 | 66,221 | 72,5 % | | MEM | 176,000 | 67,731 | 72,2 % | | HUM | 329,928 | 395,573| 45,5 % | | NAT | 324,310 | 401,957| 44,7 % | | ENC | 103,954 | 137,889| 43,0 % | | SSC | 265,640 | 460,324| 36,6 % | | FTS | 259,325 | 467,253| 35,7 % | | VER | 82,101 | 158,634 | 34,1 % | | WIK | 49,150 | 192,765 | 20,3 % | ===== Anotace ===== Korpusu bylo přidáno několik anotačních vrstev, aby se usnadnila operacionalizace rysů: * lemmatizace a morfologické značkování; bylo využito dvou systémů: stochastického taggeru [[http://ufal.mff.cuni.cz/morphodita|MorphoDiTa]] ((Straková Jana, Milan Straka & Jan Hajič. 2014. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In //Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations//, 13–18. Baltimore, MD: ACL.)) a hybridního taggeru s použitím stochastické a na pravidlech založené desambiguace ((Spoustová, Drahomíra, Jan Hajič, Jan Votrubec, Pavel Krbec & Pavel Květoň. 2007. The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In //Proceedings of the Workshop on Balto-Slavonic Natural Language Processing//, ACL 2007. 67–74; Jelínek, Tomáš. 2008. Nové značkování v Českém národním korpusu [New tagging in the Czech National Corpus]. //Naše řeč// 91(1). 13–20; Petkevič, Vladimír. 2014. Problémy automatické morfologické disambiguace češtiny [Problems of automatic morphological disambiguation of Czech]. //Naše řeč// 97(4). 194–207.)) * značkování frazémů za pomoci systému FRANTA ((Hnátková, Milena. 2002. Značkování frazémů a idiomů v Českém národním korpusu s pomocí Slovníku české frazeologie a idiomatiky [The tagging of phraseological units and idioms in the Czech National Corpus with the aid of the Dictionary of Czech phraseology and idiomatics]. //Slovo a slovesnost// 63(2). 117–126.)) * rozpoznávání pojmenovaných entit za pomoci nástroje [[http://ufal.mff.cuni.cz/nametag|NameTag]]((Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), //Text, Speech and Dialogue//, 68–75. Berlin & Heidelberg: Springer Verlag.)) Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag: * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836 * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8 Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu ''chunk.register'' [[cnk:registrova_klasifikace|registrová klasifikace]] jednotlivých chunků. ===== Zdroje dat ===== Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Martinu Proškovi a Petru Kaderkovi z [[http://ujc.cas.cz|Ústavu pro jazyk český AV ČR]] za poskytnutí dat z korpusu [[http://ujc.dialogy.cz|DIALOG]], Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]] a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu //wik// a divizi //mul//. Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: * Benešová, Lucie, Michal Křen & Martina Waclawičová. 2013. [[cnk:oral2013|ORAL2013]]. * Benko, Vladimír. 2015. [[cnk:aranea|Araneum]] Bohemicum Maius, version 15.04. ÚČNK FF UK. * Cvrček, Václav, Petr Truneček & Václav Horký. 2015. [[cnk:speeches|SPEECHES]]. * Čermák, František, Ana Adamovičová & Jiří Pešička. 2001. [[cnk:pmk|PMK]]. * Hladká, Zdeňka. 2002. [[cnk:bmk|BMK]]. * Hladká, Zdeňka. 2006. [[cnk:ksk-dopisy|KSK]]. * Křen, Michal et al. 2015. [[cnk:syn2015|SYN2015]]. * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN ÚFAL MFF UK. [[http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8]] * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN ÚFAL MFF UK. http://hdl.handle.net/11234/1-1836 * The DIALOG Corpus, version 1.2. 2015. ÚJČ AV ČR. Praha. http://ujc.dialogy.cz * The EUROPARL Corpus (the Proceedings of the European Parliament). http://www.europarl.eu.int/ ==== Jak citovat Koditex ==== Zasina, A. J. – Lukeš, D. – Komrsková, Z. – Poukarová, P. – Řehořková, A.: //Koditex: korpus diverzifikovaných textů//. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz