Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:koditex [2018/06/04 15:09] – [Korpus Koditex] petrapoukarova | cnk:koditex [2021/11/18 12:53] (aktuální) – lukes | ||
---|---|---|---|
Řádek 2: | Řádek 2: | ||
====== Korpus Koditex ====== | ====== Korpus Koditex ====== | ||
- | Koditex je korpus obsahující 9 milionů textových slov (tedy vyjma interpunkce), | + | Koditex je [[pojmy: |
Řádek 9: | Řádek 9: | ||
^ [[pojmy: | ^ [[pojmy: | ||
^ ::: ^ Počet pozic bez interpunkce | 9 139 930 | | ^ ::: ^ Počet pozic bez interpunkce | 9 139 930 | | ||
- | ^ ::: ^ Počet | + | ^ ::: ^ Počet |
^ ::: ^ Počet [[pojmy: | ^ ::: ^ Počet [[pojmy: | ||
^ ::: ^ Počet [[pojmy: | ^ ::: ^ Počet [[pojmy: | ||
Řádek 19: | Řádek 19: | ||
</ | </ | ||
- | Při vytváření korpusu byl důraz kladen zejména na pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), | + | Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), |
Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro // | Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro // | ||
Řádek 104: | Řádek 104: | ||
U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). | U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). | ||
- | ^ Class ^ Překlady (slova) ^ Originály (slova) ^ % Překladů ^ | + | ^ Class ^ Překlady (slova) ^ Originály (slova) ^ % překladů ^ |
- | | LOV | 210,250 | 30,981 | 87.2% | | + | | LOV | 210,250 | 30,981 | 87,2 % | |
- | | CRM | 202,921 | 37,677 | 84.3% | | + | | CRM | 202,921 | 37,677 | 84,3 % | |
- | | GEN | 196,924 | 43,497 | 81.9% | | + | | GEN | 196,924 | 43,497 | 81,9 % | |
- | | FAN | 188,848 | 52,778 | 78.2% | | + | | FAN | 188,848 | 52,778 | 78,2 % | |
- | | SCF | 174,340 | 66,221 | 72.5% | | + | | SCF | 174,340 | 66,221 | 72,5 % | |
- | | MEM | 176,000 | 67,731 | 72.2% | | + | | MEM | 176,000 | 67,731 | 72,2 % | |
- | | HUM | 329,928 | 395,573 | 45.5% | | + | | HUM | 329,928 | 395, |
- | | NAT | 324,310 | 401,957 | 44.7% | | + | | NAT | 324,310 | 401, |
- | | ENC | 103,954 | 137,889 | 43.0% | | + | | ENC | 103,954 | 137, |
- | | SSC | 265,640 | 460,324 | 36.6% | | + | | SSC | 265,640 | 460, |
- | | FTS | 259,325 | 467,253 | 35.7% | | + | | FTS | 259,325 | 467, |
- | | VER | 82,101 | 158,634 | 34.1% | | + | | VER | 82,101 | 158,634 | 34,1 % | |
- | | WIK | 49,150 | 192,765 | 20.3% | | + | | WIK | 49,150 | 192,765 | 20,3 % | |
===== Anotace ===== | ===== Anotace ===== | ||
Řádek 127: | Řádek 127: | ||
* rozpoznávání pojmenovaných entit za pomoci nástroje [[http:// | * rozpoznávání pojmenovaných entit za pomoci nástroje [[http:// | ||
- | Následující statistické modely byly použitý s nástroji MorphoDiTa a NameTag: | + | Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag: |
* Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/ | * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/ | ||
* Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/ | * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/ | ||
+ | |||
+ | Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu '' | ||
===== Zdroje dat ===== | ===== Zdroje dat ===== | ||
- | Valná většina | + | Valná většina |
Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: | Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: | ||
Řádek 153: | Řádek 155: | ||
<WRAP round tip 70%> | <WRAP round tip 70%> | ||
- | Zasina, | + | Zasina, |
</ | </ | ||