Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze9 [2017/08/22 16:39] – oprava omylu s tabulkou adrianzasina | cnk:intercorp:verze9 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 120 443 181 | 117 981 673 | 278 445 878 | 1 556 840 965 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 120 443 181 | 117 981 673 | 278 445 878 | 1 556 840 965 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 96 956 714 | 89 645 545 | 231 501 606 | 1 228 896 294 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 96 956 714 | 89 645 545 | 231 501 606 | 1 228 896 294 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1430 | 5 | 2 934 | 89 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1430 | 5 | 2 934 | 89 | |
^ ::: ^ Počet div | 1 430 | 111 263 | 2 934 | 1 849 184 | | ^ ::: ^ Počet div | 1 430 | 111 263 | 2 934 | 1 849 184 | |
^ ::: ^ Počet vět | 8 308 814 | 13 588 082 | 17 210 601 | 143 478 514 | | ^ ::: ^ Počet vět | 8 308 814 | 13 588 082 | 17 210 601 | 143 478 514 | |
* beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi | * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi |
* publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]] | * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]] |
* publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|Presseurop/VoxEurop]] | * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]] |
* právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]] | * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]] |
* jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]] | * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]] |
* [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi) | * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi) |
* [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu | * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu |
* [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi) | * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi) |
* [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) | * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) |
* [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi) | * [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi) |
* [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi) | * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi) |
| |
---- | ---- |