Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:koditex [2018/06/04 15:11] – [Korpus Koditex] petrapoukarova | cnk:koditex [2021/11/18 12:53] (aktuální) – lukes |
---|
====== Korpus Koditex ====== | ====== Korpus Koditex ====== |
| |
Koditex je korpus obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. | Koditex je [[pojmy:synchronni|synchronní]], [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. |
| |
| |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 10 880 550 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 10 880 550 | |
^ ::: ^ Počet pozic bez interpunkce | 9 139 930 | | ^ ::: ^ Počet pozic bez interpunkce | 9 139 930 | |
^ ::: ^ Počet pozic bez interpunkce vstupující do faktorové analýzy (include=„yes“) | 9 039 137 | | ^ ::: ^ Počet tokenů bez interpunkce vstupujících do faktorové analýzy (include=„yes“) | 9 039 137 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 509 764 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 509 764 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 205 592 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 205 592 | |
</WRAP> | </WRAP> |
| |
Při vytváření korpusu byl důraz kladen zejména na pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly [[pojmy:lemma|lemmatizovány]], [[pojmy:tag|morfologicky označkovány]] dvěma různými systémy, dále v nich byly anotovány [[seznamy:frazemy|frazémy]] a tzv. pojmenované entity -- [[http://ufal.mff.cuni.cz/nametag|named entities]]). Z hlediska [[pojmy:psany|psanosti]] se tak jedná o korpus smíšený, dalšími jeho atributy jsou: [[pojmy:synchronni|synchronní]], [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]], tj. neměnný. | Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly [[pojmy:lemma|lemmatizovány]], [[pojmy:tag|morfologicky označkovány]] dvěma různými systémy, dále v nich byly anotovány [[seznamy:frazemy|frazémy]] a tzv. pojmenované entity -- [[http://ufal.mff.cuni.cz/nametag|named entities]]). Z hlediska [[pojmy:psany|psanosti]] a [[pojmy:mluveny?s[]=korpus&s[]=mluveného&s[]=jazyka|mluvenosti]] se tak jedná o korpus smíšený. |
| |
Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro //**ko**rpus **di**verzifikovaných **tex**tů//. | Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro //**ko**rpus **di**verzifikovaných **tex**tů//. |
U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). | U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). |
| |
^ Class ^ Překlady (slova) ^ Originály (slova) ^ % Překladů ^ | ^ Class ^ Překlady (slova) ^ Originály (slova) ^ % překladů ^ |
| LOV | 210,250 | 30,981 | 87.2% | | | LOV | 210,250 | 30,981 | 87,2 % | |
| CRM | 202,921 | 37,677 | 84.3% | | | CRM | 202,921 | 37,677 | 84,3 % | |
| GEN | 196,924 | 43,497 | 81.9% | | | GEN | 196,924 | 43,497 | 81,9 % | |
| FAN | 188,848 | 52,778 | 78.2% | | | FAN | 188,848 | 52,778 | 78,2 % | |
| SCF | 174,340 | 66,221 | 72.5% | | | SCF | 174,340 | 66,221 | 72,5 % | |
| MEM | 176,000 | 67,731 | 72.2% | | | MEM | 176,000 | 67,731 | 72,2 % | |
| HUM | 329,928 | 395,573 | 45.5% | | | HUM | 329,928 | 395,573| 45,5 % | |
| NAT | 324,310 | 401,957 | 44.7% | | | NAT | 324,310 | 401,957| 44,7 % | |
| ENC | 103,954 | 137,889 | 43.0% | | | ENC | 103,954 | 137,889| 43,0 % | |
| SSC | 265,640 | 460,324 | 36.6% | | | SSC | 265,640 | 460,324| 36,6 % | |
| FTS | 259,325 | 467,253 | 35.7% | | | FTS | 259,325 | 467,253| 35,7 % | |
| VER | 82,101 | 158,634 | 34.1% | | | VER | 82,101 | 158,634 | 34,1 % | |
| WIK | 49,150 | 192,765 | 20.3% | | | WIK | 49,150 | 192,765 | 20,3 % | |
| |
===== Anotace ===== | ===== Anotace ===== |
* rozpoznávání pojmenovaných entit za pomoci nástroje [[http://ufal.mff.cuni.cz/nametag|NameTag]]((Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), //Text, Speech and Dialogue//, 68–75. Berlin & Heidelberg: Springer Verlag.)) | * rozpoznávání pojmenovaných entit za pomoci nástroje [[http://ufal.mff.cuni.cz/nametag|NameTag]]((Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), //Text, Speech and Dialogue//, 68–75. Berlin & Heidelberg: Springer Verlag.)) |
| |
Následující statistické modely byly použitý s nástroji MorphoDiTa a NameTag: | Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag: |
| |
* Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836 | * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836 |
* Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8 | * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8 |
| |
| Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu ''chunk.register'' [[cnk:registrova_klasifikace|registrová klasifikace]] jednotlivých chunků. |
| |
===== Zdroje dat ===== | ===== Zdroje dat ===== |
| |
Valná většina materiálů obsažených v korpusu Koditex čerpá ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]], a dále Josefu Šlerkovi a jeho týmu z Socialinsider za poskytnutí dat pro třídu //wik// a oddíl //mul//. | Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Martinu Proškovi a Petru Kaderkovi z [[http://ujc.cas.cz|Ústavu pro jazyk český AV ČR]] za poskytnutí dat z korpusu [[http://ujc.dialogy.cz|DIALOG]], Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]] a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu //wik// a divizi //mul//. |
| |
Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: | Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Zasina, Adrian J., David Lukeš, Zuzana Komrsková, Petra Poukarová & Anna Řehořková. 2018. Koditex (A corpus of diversified texts). Faculty of Arts, Institute of the Czech National Corpus, Charles University in Prague. | Zasina, A. J. – Lukeš, D. – Komrsková, Z. – Poukarová, P. – Řehořková, A.: //Koditex: korpus diverzifikovaných textů//. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz |
</WRAP> | </WRAP> |
| |