AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:koditex [2018/06/04 15:09] – [Korpus Koditex] petrapoukarovacnk:koditex [2021/11/18 12:53] (aktuální) lukes
Řádek 2: Řádek 2:
 ====== Korpus Koditex ====== ====== Korpus Koditex ======
  
-Koditex je korpus obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny.+Koditex je [[pojmy:synchronni|synchronní]], [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpusobsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny.
  
  
Řádek 9: Řádek 9:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  10 880 550 |   ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  10 880 550 |  
 ^ ::: ^ Počet pozic bez interpunkce |  9 139 930 | ^ ::: ^ Počet pozic bez interpunkce |  9 139 930 |
-^ ::: ^ Počet pozic bez interpunkce vstupující do faktorové analýzy |  9 039 137 |  +^ ::: ^ Počet tokenů bez interpunkce vstupujících do faktorové analýzy (include=„yes“) |  9 039 137 |  
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  509 764 |   ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  509 764 |  
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  205 592 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  205 592 |
Řádek 19: Řádek 19:
 </WRAP> </WRAP>
  
-Při vytváření korpusu byl důraz kladen zejména na pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly [[pojmy:lemma|lemmatizovány]], [[pojmy:tag|morfologicky označkovány]] dvěma různými systémy, dále v nich byly anotovány [[seznamy:frazemy|frazémy]] a tzv. pojmenované entity -- [[http://ufal.mff.cuni.cz/nametag|named entities]]). Z hlediska [[pojmy:psany|psanosti]] se tak jedná o korpus smíšený, dalšími jeho atributy jsou: [[pojmy:synchronni|synchronní]][[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]], tj. neměnný.+Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly [[pojmy:lemma|lemmatizovány]], [[pojmy:tag|morfologicky označkovány]] dvěma různými systémy, dále v nich byly anotovány [[seznamy:frazemy|frazémy]] a tzv. pojmenované entity -- [[http://ufal.mff.cuni.cz/nametag|named entities]]). Z hlediska [[pojmy:psany|psanosti]] [[pojmy:mluveny?s[]=korpus&s[]=mluveného&s[]=jazyka|mluvenosti]] se tak jedná o korpus smíšený.
  
 Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro //**ko**rpus **di**verzifikovaných **tex**tů//. Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro //**ko**rpus **di**verzifikovaných **tex**tů//.
Řádek 104: Řádek 104:
 U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály).
  
-^ Class ^ Překlady (slova) ^ Originály (slova) ^ % Překladů ^ +^ Class ^ Překlady (slova) ^ Originály (slova) ^ % překladů ^ 
-| LOV |  210,250 |  30,981 |  87.2% | +| LOV |  210,250 |  30,981 |  87,2 % | 
-| CRM |  202,921 |  37,677 |  84.3% | +| CRM |  202,921 |  37,677 |  84,3 % | 
-| GEN |  196,924 |  43,497 |  81.9% | +| GEN |  196,924 |  43,497 |  81,9 % | 
-| FAN |  188,848 |  52,778 |  78.2% | +| FAN |  188,848 |  52,778 |  78,2 % | 
-| SCF |  174,340 |  66,221 |  72.5% | +| SCF |  174,340 |  66,221 |  72,5 % | 
-| MEM |  176,000 |  67,731 |  72.2% | +| MEM |  176,000 |  67,731 |  72,2 % | 
-| HUM |  329,928 |  395,573 |  45.5% | +| HUM |  329,928 |  395,573|  45,5 % | 
-| NAT |  324,310 |  401,957 |  44.7% | +| NAT |  324,310 |  401,957|  44,7 % | 
-| ENC |  103,954 |  137,889 |  43.0% | +| ENC |  103,954 |  137,889|  43,0 % | 
-| SSC |  265,640 |  460,324 |  36.6% | +| SSC |  265,640 |  460,324|  36,6 % | 
-| FTS |  259,325 |  467,253 |  35.7% | +| FTS |  259,325 |  467,253|  35,7 % | 
-| VER |  82,101 |  158,634 |  34.1% | +| VER |  82,101 |  158,634 |  34,1 % | 
-| WIK |  49,150 |  192,765 |  20.3% |+| WIK |  49,150 |  192,765 |  20,3 % |
  
 ===== Anotace ===== ===== Anotace =====
Řádek 127: Řádek 127:
   * rozpoznávání pojmenovaných entit za pomoci nástroje [[http://ufal.mff.cuni.cz/nametag|NameTag]]((Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), //Text, Speech and Dialogue//, 68–75. Berlin & Heidelberg: Springer Verlag.))   * rozpoznávání pojmenovaných entit za pomoci nástroje [[http://ufal.mff.cuni.cz/nametag|NameTag]]((Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), //Text, Speech and Dialogue//, 68–75. Berlin & Heidelberg: Springer Verlag.))
  
-Následující statistické modely byly použitý s nástroji MorphoDiTa a NameTag:+Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag:
  
   * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836   * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836
   * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8   * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8
 +
 +Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu ''chunk.register'' [[cnk:registrova_klasifikace|registrová klasifikace]] jednotlivých chunků.
  
 ===== Zdroje dat ===== ===== Zdroje dat =====
  
-Valná většina materiálů obsažených v korpusu Koditex čerpá ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]]a dále Josefu Šlerkovi a jeho týmu Socialinsider za poskytnutí dat pro třídu //wik// a oddíl //mul//.+Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Martinu Proškovi a Petru Kaderkovi z [[http://ujc.cas.cz|Ústavu pro jazyk český AV ČR]] za poskytnutí dat z korpusu [[http://ujc.dialogy.cz|DIALOG]], Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]] a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu //wik// a divizi //mul//.
  
 Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet:
Řádek 153: Řádek 155:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Zasina, Adrian J., David Lukeš, Zuzana Komrsková, Petra Poukarová  & Anna Řehořková. 2018. Koditex (A corpus of diversified texts)Faculty of ArtsInstitute of the Czech National Corpus, Charles University in Prague.+Zasina, A. J. – Lukeš, D. – Komrsková, Z. – Poukarová, P. – Řehořková, A.: //Koditex: korpus diverzifikovaných textů//Ústav Českého národního korpusu FF UKPraha 2018. Dostupný z WWW: http://www.korpus.cz
 </WRAP> </WRAP>