Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze11 [2018/10/22 11:38] – [Jak citovat] datum zveřejnění adrianzasina | cnk:intercorp:verze11 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 132 508 429 | 115 574 528 | 340 554 768 | 1 550 923 096 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 132 508 429 | 115 574 528 | 340 554 768 | 1 550 923 096 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 106 898 538 | 88 872 779 | 283 075 338 | 1 225 361 750 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 106 898 538 | 88 872 779 | 283 075 338 | 1 225 361 750 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 564 | 28 | 3 494 | 261 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 564 | 28 | 3 494 | 261 | |
^ ::: ^ Počet textů | 1 564 | 107 488 | 3 494 | 1 841 341 | | ^ ::: ^ Počet textů | 1 564 | 107 488 | 3 494 | 1 841 341 | |
^ ::: ^ Počet vět | 9 193 433 | 13 556 382 | 21 000 997 | 142 734 659 | | ^ ::: ^ Počet vět | 9 193 433 | 13 556 382 | 21 000 997 | 142 734 659 | |
==== Morfosyntaktická anotace ==== | ==== Morfosyntaktická anotace ==== |
| |
Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. | Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, přepnete-li na pokročilý dotaz. |
| |
^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Nástroj ^ | ^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Nástroj ^ |
* [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) | * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) |
* [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi) | * [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi) |
* [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi) | * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi) |
* [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému) | * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému) |
| * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu |
====== Viz též ====== | ====== Viz též ====== |
| |