Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| cnk:koditex [2018/06/05 09:42] – [Korpus Koditex] petrapoukarova | cnk:koditex [2021/11/18 12:53] (aktuální) – lukes | ||
|---|---|---|---|
| Řádek 19: | Řádek 19: | ||
| </ | </ | ||
| - | Při vytváření korpusu byl důraz kladen zejména na pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), | + | Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), |
| Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro // | Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro // | ||
| Řádek 104: | Řádek 104: | ||
| U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). | U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály). | ||
| - | ^ Class ^ Překlady (slova) ^ Originály (slova) ^ % Překladů ^ | + | ^ Class ^ Překlady (slova) ^ Originály (slova) ^ % překladů ^ |
| - | | LOV | 210,250 | 30,981 | 87.2% | | + | | LOV | 210,250 | 30,981 | 87,2 % | |
| - | | CRM | 202,921 | 37,677 | 84.3% | | + | | CRM | 202,921 | 37,677 | 84,3 % | |
| - | | GEN | 196,924 | 43,497 | 81.9% | | + | | GEN | 196,924 | 43,497 | 81,9 % | |
| - | | FAN | 188,848 | 52,778 | 78.2% | | + | | FAN | 188,848 | 52,778 | 78,2 % | |
| - | | SCF | 174,340 | 66,221 | 72.5% | | + | | SCF | 174,340 | 66,221 | 72,5 % | |
| - | | MEM | 176,000 | 67,731 | 72.2% | | + | | MEM | 176,000 | 67,731 | 72,2 % | |
| - | | HUM | 329,928 | 395,573 | 45.5% | | + | | HUM | 329,928 | 395, |
| - | | NAT | 324,310 | 401,957 | 44.7% | | + | | NAT | 324,310 | 401, |
| - | | ENC | 103,954 | 137,889 | 43.0% | | + | | ENC | 103,954 | 137, |
| - | | SSC | 265,640 | 460,324 | 36.6% | | + | | SSC | 265,640 | 460, |
| - | | FTS | 259,325 | 467,253 | 35.7% | | + | | FTS | 259,325 | 467, |
| - | | VER | 82,101 | 158,634 | 34.1% | | + | | VER | 82,101 | 158,634 | 34,1 % | |
| - | | WIK | 49,150 | 192,765 | 20.3% | | + | | WIK | 49,150 | 192,765 | 20,3 % | |
| ===== Anotace ===== | ===== Anotace ===== | ||
| Řádek 127: | Řádek 127: | ||
| * rozpoznávání pojmenovaných entit za pomoci nástroje [[http:// | * rozpoznávání pojmenovaných entit za pomoci nástroje [[http:// | ||
| - | Následující statistické modely byly použitý s nástroji MorphoDiTa a NameTag: | + | Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag: |
| * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/ | * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/ | ||
| * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/ | * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/ | ||
| + | |||
| + | Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu '' | ||
| ===== Zdroje dat ===== | ===== Zdroje dat ===== | ||
| - | Valná většina | + | Valná většina |
| Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: | Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: | ||
| Řádek 153: | Řádek 155: | ||
| <WRAP round tip 70%> | <WRAP round tip 70%> | ||
| - | Zasina, | + | Zasina, |
| </ | </ | ||