AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze11 [2018/10/22 11:38] – [Jak citovat] datum zveřejnění Adrian Zasinacnk:intercorp:verze11 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  132 508 429 |  115 574 528 |  340 554 768 |  1 550 923 096 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  132 508 429 |  115 574 528 |  340 554 768 |  1 550 923 096 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  106 898 538 |  88 872 779 |  283 075 338 |  1 225 361 750 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  106 898 538 |  88 872 779 |  283 075 338 |  1 225 361 750 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 564 |  28 |  3 494 |   261 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 564 |  28 |  3 494 |   261 |
 ^ ::: ^ Počet textů |  1 564 |  107 488 |  3 494 |  1 841 341 | ^ ::: ^ Počet textů |  1 564 |  107 488 |  3 494 |  1 841 341 |
 ^ ::: ^ Počet vět |  9 193 433 |  13 556 382 |  21 000 997 |  142 734 659 | ^ ::: ^ Počet vět |  9 193 433 |  13 556 382 |  21 000 997 |  142 734 659 |
Řádek 112: Řádek 112:
 ==== Morfosyntaktická anotace ==== ==== Morfosyntaktická anotace ====
  
-Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL.+Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, přepnete-li na pokročilý dotaz.
  
 ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Nástroj  ^ ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Nástroj  ^
Řádek 233: Řádek 233:
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
-  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi)+  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)
 +  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu
 ====== Viz též ====== ====== Viz též ======