Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:koditex [2018/06/04 15:28] – [Korpus Koditex] petrapoukarova
+++ cnk:koditex [2021/11/18 12:53] (aktuální) – lukes
@@ Řádek 2: / Řádek 2: @@
 ====== Korpus Koditex ======
-Koditex je korpus obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny.
+Koditex je [[pojmy:synchronni|synchronní]], [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny.
@@ Řádek 9: / Řádek 9: @@
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  10 880 550 |
 ^ ::: ^ Počet pozic bez interpunkce |  9 139 930 |
-^ ::: ^ Počet pozic bez interpunkce vstupující do faktorové analýzy (include=„yes“) |  9 039 137 |
+^ ::: ^ Počet tokenů bez interpunkce vstupujících do faktorové analýzy (include=„yes“) |  9 039 137 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  509 764 |
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  205 592 |
@@ Řádek 19: / Řádek 19: @@
 </WRAP>
-Při vytváření korpusu byl důraz kladen zejména na pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly [[pojmy:lemma|lemmatizovány]], [[pojmy:tag|morfologicky označkovány]] dvěma různými systémy, dále v nich byly anotovány [[seznamy:frazemy|frazémy]] a tzv. pojmenované entity -- [[http://ufal.mff.cuni.cz/nametag|named entities]]). Z hlediska [[pojmy:psany|psanosti]] a [[pojmy:mluveny?s[]=korpus&s[]=mluveného&s[]=jazyka|mluvenosti]] se tak jedná o korpus smíšený, dalšími jeho atributy jsou: [[pojmy:synchronni|synchronní]], [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]], tj. neměnný.
+Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly [[pojmy:lemma|lemmatizovány]], [[pojmy:tag|morfologicky označkovány]] dvěma různými systémy, dále v nich byly anotovány [[seznamy:frazemy|frazémy]] a tzv. pojmenované entity -- [[http://ufal.mff.cuni.cz/nametag|named entities]]). Z hlediska [[pojmy:psany|psanosti]] a [[pojmy:mluveny?s[]=korpus&s[]=mluveného&s[]=jazyka|mluvenosti]] se tak jedná o korpus smíšený.
 Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro //**ko**rpus **di**verzifikovaných **tex**tů//.
@@ Řádek 104: / Řádek 104: @@
 U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály).
-^ Class ^ Překlady (slova) ^ Originály (slova) ^ % Překladů ^
+^ Class ^ Překlady (slova) ^ Originály (slova) ^ % překladů ^
-| LOV |  210,250 |  30,981 |  87.2% |
+| LOV |  210,250 |  30,981 |  87,2 % |
-| CRM |  202,921 |  37,677 |  84.3% |
+| CRM |  202,921 |  37,677 |  84,3 % |
-| GEN |  196,924 |  43,497 |  81.9% |
+| GEN |  196,924 |  43,497 |  81,9 % |
-| FAN |  188,848 |  52,778 |  78.2% |
+| FAN |  188,848 |  52,778 |  78,2 % |
-| SCF |  174,340 |  66,221 |  72.5% |
+| SCF |  174,340 |  66,221 |  72,5 % |
-| MEM |  176,000 |  67,731 |  72.2% |
+| MEM |  176,000 |  67,731 |  72,2 % |
-| HUM |  329,928 |  395,573 |  45.5% |
+| HUM |  329,928 |  395,573|  45,5 % |
-| NAT |  324,310 |  401,957 |  44.7% |
+| NAT |  324,310 |  401,957|  44,7 % |
-| ENC |  103,954 |  137,889 |  43.0% |
+| ENC |  103,954 |  137,889|  43,0 % |
-| SSC |  265,640 |  460,324 |  36.6% |
+| SSC |  265,640 |  460,324|  36,6 % |
-| FTS |  259,325 |  467,253 |  35.7% |
+| FTS |  259,325 |  467,253|  35,7 % |
-| VER |  82,101 |  158,634 |  34.1% |
+| VER |  82,101 |  158,634 |  34,1 % |
-| WIK |  49,150 |  192,765 |  20.3% |
+| WIK |  49,150 |  192,765 |  20,3 % |
 ===== Anotace =====
@@ Řádek 127: / Řádek 127: @@
   * rozpoznávání pojmenovaných entit za pomoci nástroje [[http://ufal.mff.cuni.cz/nametag|NameTag]]((Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), //Text, Speech and Dialogue//, 68–75. Berlin & Heidelberg: Springer Verlag.))
-Následující statistické modely byly použitý s nástroji MorphoDiTa a NameTag:
+Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag:
   * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836
   * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8
+Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu ''chunk.register'' [[cnk:registrova_klasifikace|registrová klasifikace]] jednotlivých chunků.
 ===== Zdroje dat =====
-Valná většina materiálů obsažených v korpusu Koditex čerpá ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]], a dále Josefu Šlerkovi a jeho týmu z Socialinsider za poskytnutí dat pro třídu //wik// a oddíl //mul//.
+Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Martinu Proškovi a Petru Kaderkovi z [[http://ujc.cas.cz|Ústavu pro jazyk český AV ČR]] za poskytnutí dat z korpusu [[http://ujc.dialogy.cz|DIALOG]], Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]] a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu //wik// a divizi //mul//.
 Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet:
@@ Řádek 153: / Řádek 155: @@
 <WRAP round tip 70%>
-Zasina, Adrian J., David Lukeš, Zuzana Komrsková, Petra Poukarová  & Anna Řehořková. 2018. Koditex (A corpus of diversified texts). Faculty of Arts, Institute of the Czech National Corpus, Charles University in Prague.
+Zasina, A. J. – Lukeš, D. – Komrsková, Z. – Poukarová, P. – Řehořková, A.: //Koditex: korpus diverzifikovaných textů//. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz
 </WRAP>

Historie: • tokenizace

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence