Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze13 [2020/10/27 20:07] – [Morfosyntaktická anotace] alexandrrosen | cnk:intercorp:verze13 [2024/04/18 12:47] (aktuální) – [Morfosyntaktická anotace] michalkren |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 032 521 | 116 673 043 | 394 042 551 | 1 550 071 364 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 032 521 | 116 673 043 | 394 042 551 | 1 550 071 364 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 838 505 | 89 819 773 | 327 968 369 | 1 223 270 610 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 838 505 | 89 819 773 | 327 968 369 | 1 223 270 610 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 657 | 30 | 3 993 | 282 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 657 | 30 | 3 993 | 282 | |
^ ::: ^ Počet textů | 1 657 | 111 951 | 3 993 | 1 843 528 | | ^ ::: ^ Počet textů | 1 657 | 111 951 | 3 993 | 1 843 528 | |
^ ::: ^ Počet vět | 9 782 001 | 13 606 183 | 24 305 621 | 143 195 566 | | ^ ::: ^ Počet vět | 9 782 001 | 13 606 183 | 24 305 621 | 143 195 566 | |
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13 z listopadu 2020 činí v zarovnaných cizojazyčných textech 328 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13 z listopadu 2020 činí v zarovnaných cizojazyčných textech 328 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. |
| |
[{{:cnk:intercorp:intercorp_wordcounts_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] | [{{:cnk:intercorp:intercorp_wordcounts_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ |
| |
| |
| [{{:cnk:intercorp:intercorp_wordcounts2_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\ |
| |
[{{:cnk:intercorp:intercorp_wordcounts2_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] | |
| |
[{{:cnk:intercorp:intercorp_wordcounts3_v13.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] | [{{:cnk:intercorp:intercorp_wordcounts3_v13.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] |
| |
^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ | ^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ |
| ar | arabština | 34 | 0 | 0 | 0 | 0 | 0 | 0 | 34 | | ^ ar ^ arabština | 34 | 0 | 0 | 0 | 0 | 0 | 0 | 34 | |
| be | běloruština | 5 718 | 0 | 0 | 0 | 0 | 0 | 0 | 5 718 | | ^ be ^ běloruština | 5 718 | 0 | 0 | 0 | 0 | 0 | 0 | 5 718 | |
| bg | bulharština | 7 068 | 0 | 0 | 13 577 | 9 083 | 0 | 0 | 29 728 | | ^ bg ^ bulharština | 7 068 | 0 | 0 | 13 577 | 9 083 | 0 | 0 | 29 728 | |
| ca | katalánština | 7 938 | 0 | 0 | 0 | 0 | 0 | 736 | 8 674 | | ^ ca ^ katalánština | 7 938 | 0 | 0 | 0 | 0 | 0 | 736 | 8 674 | |
| da | dánština | 7 136 | 0 | 0 | 20 313 | 13 916 | 14 429 | 657 | 56 451 | | ^ da ^ dánština | 7 136 | 0 | 0 | 20 313 | 13 916 | 14 429 | 657 | 56 451 | |
| de | němčina | 37 633 | 4 704 | 2 483 | 20 610 | 13 088 | 8 392 | 724 | 87 634 | | ^ de ^ němčina | 37 633 | 4 704 | 2 483 | 20 610 | 13 088 | 8 392 | 724 | 87 634 | |
| el | řečtina | 0 | 0 | 0 | 23 853 | 15 404 | 23 709 | 0 | 62 966 | | ^ el ^ řečtina | 0 | 0 | 0 | 23 853 | 15 404 | 23 709 | 0 | 62 966 | |
| en | angličtina | 33 569 | 4 856 | 2 670 | 22 902 | 15 576 | 52 106 | 730 | 132 409 | | ^ en ^ angličtina | 33 569 | 4 856 | 2 670 | 22 902 | 15 576 | 52 106 | 730 | 132 409 | |
| es | španělština | 26 554 | 5 614 | 2 859 | 26 262 | 16 249 | 36 650 | 0 | 114 187 | | ^ es ^ španělština | 26 554 | 5 614 | 2 859 | 26 262 | 16 249 | 36 650 | 0 | 114 187 | |
| et | estonština | 0 | 0 | 0 | 14 896 | 10 899 | 10 298 | 0 | 36 093 | | ^ et ^ estonština | 0 | 0 | 0 | 14 896 | 10 899 | 10 298 | 0 | 36 093 | |
| fi | finština | 5 656 | 0 | 0 | 15 269 | 10 108 | 15 047 | 543 | 46 622 | | ^ fi ^ finština | 5 656 | 0 | 0 | 15 269 | 10 108 | 15 047 | 543 | 46 622 | |
| fr | francouzština | 19 773 | 5 600 | 3 046 | 26 200 | 17 179 | 25 986 | 764 | 98 547 | | ^ fr ^ francouzština | 19 773 | 5 600 | 3 046 | 26 200 | 17 179 | 25 986 | 764 | 98 547 | |
| he | hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 0 | 16 221 | | ^ he ^ hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 0 | 16 221 | |
| hi | hindština | 409 | 0 | 0 | 0 | 0 | 0 | 0 | 409 | | ^ hi ^ hindština | 409 | 0 | 0 | 0 | 0 | 0 | 0 | 409 | |
| hr | chorvatština | 21 923 | 0 | 0 | 0 | 0 | 19 048 | 571 | 41 543 | | ^ hr ^ chorvatština | 21 923 | 0 | 0 | 0 | 0 | 19 048 | 571 | 41 543 | |
| hu | maďarština | 6 444 | 0 | 0 | 17 852 | 12 198 | 21 115 | 0 | 57 609 | | ^ hu ^ maďarština | 6 444 | 0 | 0 | 17 852 | 12 198 | 21 115 | 0 | 57 609 | |
| is | islandština | 0 | 0 | 0 | 0 | 0 | 1 581 | 0 | 1 581 | | ^ is ^ islandština | 0 | 0 | 0 | 0 | 0 | 1 581 | 0 | 1 581 | |
| it | italština | 14 525 | 1 252 | 2 747 | 23 771 | 15 494 | 14 700 | 684 | 73 174 | | ^ it ^ italština | 14 525 | 1 252 | 2 747 | 23 771 | 15 494 | 14 700 | 684 | 73 174 | |
| ja | japonština | 2 189 | 0 | 0 | 0 | 0 | 477 | 0 | 2 666 | | ^ ja ^ japonština | 2 189 | 0 | 0 | 0 | 0 | 477 | 0 | 2 666 | |
| lt | litevština | 421 | 0 | 0 | 17 316 | 11 213 | 558 | 471 | 29 979 | | ^ lt ^ litevština | 421 | 0 | 0 | 17 316 | 11 213 | 558 | 471 | 29 979 | |
| lv | lotyština | 2 646 | 0 | 0 | 17 522 | 11 682 | 280 | 537 | 32 667 | | ^ lv ^ lotyština | 2 646 | 0 | 0 | 17 522 | 11 682 | 280 | 537 | 32 667 | |
| mk | makedonština | 8 881 | 0 | 0 | 0 | 0 | 1 877 | 0 | 10 758 | | ^ mk ^ makedonština | 8 881 | 0 | 0 | 0 | 0 | 1 877 | 0 | 10 758 | |
| ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 521 | 0 | 3 521 | | ^ ms ^ malajština | 0 | 0 | 0 | 0 | 0 | 3 521 | 0 | 3 521 | |
| mt | maltština | 0 | 0 | 0 | 13 935 | 0 | 0 | 0 | 13 935 | | ^ mt ^ maltština | 0 | 0 | 0 | 13 935 | 0 | 0 | 0 | 13 935 | |
| nl | nizozemština | 16 216 | 813 | 2 953 | 23 416 | 15 558 | 29 373 | 717 | 89 045 | | ^ nl ^ nizozemština | 16 216 | 813 | 2 953 | 23 416 | 15 558 | 29 373 | 717 | 89 045 | |
| no | norština | 7 727 | 0 | 0 | 0 | 0 | 0 | 722 | 8 449 | | ^ no ^ norština | 7 727 | 0 | 0 | 0 | 0 | 0 | 722 | 8 449 | |
| pl | polština | 26 200 | 0 | 2 380 | 19 604 | 12 817 | 26 576 | 583 | 88 161 | | ^ pl ^ polština | 26 200 | 0 | 2 380 | 19 604 | 12 817 | 26 576 | 583 | 88 161 | |
| pt | portugalština | 4 981 | 554 | 2 782 | 24 598 | 15 193 | 41 468 | 706 | 90 282 | | ^ pt ^ portugalština | 4 981 | 554 | 2 782 | 24 598 | 15 193 | 41 468 | 706 | 90 282 | |
| rn | romština | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 | | ^ rn ^ romština | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 | |
| ro | rumunština | 4 219 | 0 | 2 738 | 8 092 | 9 446 | 34 128 | 0 | 58 622 | | ^ ro ^ rumunština | 4 219 | 0 | 2 738 | 8 092 | 9 446 | 34 128 | 0 | 58 622 | |
| ru | ruština | 8 642 | 3 984 | 0 | 0 | 0 | 6 887 | 565 | 20 078 | | ^ ru ^ ruština | 8 642 | 3 984 | 0 | 0 | 0 | 6 887 | 565 | 20 078 | |
| sk | slovenština | 8 543 | 0 | 0 | 18 399 | 12 727 | 5 133 | 561 | 45 363 | | ^ sk ^ slovenština | 8 543 | 0 | 0 | 18 399 | 12 727 | 5 133 | 561 | 45 363 | |
| sl | slovinština | 3 871 | 0 | 0 | 18 528 | 12 251 | 17 061 | 0 | 51 711 | | ^ sl ^ slovinština | 3 871 | 0 | 0 | 18 528 | 12 251 | 17 061 | 0 | 51 711 | |
| sq | albánština | 0 | 0 | 0 | 0 | 0 | 2 003 | 0 | 2 003 | | ^ sq ^ albánština | 0 | 0 | 0 | 0 | 0 | 2 003 | 0 | 2 003 | |
| sr | srbština | 11 582 | 0 | 0 | 0 | 0 | 20 727 | 0 | 32 308 | | ^ sr ^ srbština | 11 582 | 0 | 0 | 0 | 0 | 20 727 | 0 | 32 308 | |
| sv | švédština | 15 790 | 0 | 0 | 19 542 | 13 784 | 14 666 | 638 | 64 419 | | ^ sv ^ švédština | 15 790 | 0 | 0 | 19 542 | 13 784 | 14 666 | 638 | 64 419 | |
| tr | turečtina | 0 | 0 | 0 | 0 | 0 | 21 190 | 0 | 21 190 | | ^ tr ^ turečtina | 0 | 0 | 0 | 0 | 0 | 21 190 | 0 | 21 190 | |
| uk | ukrajinština | 11 459 | 0 | 0 | 0 | 0 | 244 | 596 | 12 299 | | ^ uk ^ ukrajinština | 11 459 | 0 | 0 | 0 | 0 | 244 | 596 | 12 299 | |
| vi | vietnamština | 0 | 0 | 0 | 0 | 0 | 1 474 | 0 | 1 474 | | ^ vi ^ vietnamština | 0 | 0 | 0 | 0 | 0 | 1 474 | 0 | 1 474 | |
| zh | čínština | 127 | 240 | 0 | 0 | 0 | 2 247 | 0 | 2 614 | | ^ zh ^ čínština | 127 | 240 | 0 | 0 | 0 | 2 247 | 0 | 2 614 | |
| **celkem** | | 327 887 | 27 616 | 24 658 | 406 459 | 263 864 | 489 169 | 11 504 | 1 551 157 | | ^ **celkem** ^| 327 887 | 27 616 | 24 658 | 406 459 | 263 864 | 489 169 | 11 504 | 1 551 157 | |
| cs | čeština | 113 839 | 4 351 | 2 310 | 19 085 | 12 908 | 50 604 | 562 | 203 658 | | ^ cs ^ čeština | 113 839 | 4 351 | 2 310 | 19 085 | 12 908 | 50 604 | 562 | 203 658 | |
| **CELKEM** | | 441 725 | 31 967 | 26 968 | 425 543 | 276 772 | 539 774 | 12 066 | 1 754 815 | | ^ **CELKEM** ^| 441 725 | 31 967 | 26 968 | 425 543 | 276 772 | 539 774 | 12 066 | 1 754 815 | |
| |
Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. | Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. |
Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]]. | Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]]. |
| |
^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Značky v korpusu ^ Nástroj ^ | ^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Nástroj ^ |
^ angličtina | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_en&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ angličtina | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ běloruština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_be&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ běloruština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%) |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
^ bulharština | ✔ | ✔ | [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]] | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_bg&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ bulharština | ✔ | ✔ | [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]] | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_cs&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] | | ^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] | |
^ čínština | ✔ | | [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]] | [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_zh&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] | | ^ čínština | ✔ | | [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]] | [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]] | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] | |
^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_et&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ finština | ✔ | ✔ | [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%) | [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_fi&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] | | ^ finština | ✔ | ✔ | [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%) | [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%) |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] | |
^ francouzština | ✔ | ✔ | [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_fr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ francouzština | ✔ | ✔ | [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]] | |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_hr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/uzh/reldi|ReLDI Tagger]] | | ^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_is&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | | ^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | |
^ italština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_it&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ italština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]] | |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ japonština | ✔ | ✔ | [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_ja&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] | | ^ japonština | ✔ | ✔ | [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]] | | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] | |
^ katalánština | ✔ | ✔ | [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_ca&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ katalánština | ✔ | ✔ | [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_lv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] | | ^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] | |
^ maďarština | ✔ | | | [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_hu&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | | ^ maďarština | ✔ | | | [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | |
^ němčina | ✔ | ✔ | [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_de&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | | ^ němčina | ✔ | ✔ | [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | |
^ nizozemština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_nl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ nizozemština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] a [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_no&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]] | | ^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] a [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]] | |
^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_pl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] | | ^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] | |
^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_pt&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_ru&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]] | [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | | ^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]] | [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | |
^ slovinština | ✔ | ✔ | [[https://www.sketchengine.eu/slovene-tagset-multext-east-v3/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://nl2.ijs.si/analyze/|ToTaLe]] | | ^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ srbština | ✔ | ✔ | [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/uzh/reldi|ReLDI Tagger]] | | ^ srbština | ✔ | ✔ | [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_es&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | |
^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_uk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
| |
<wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> | <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> |
<wrap lo>%%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag=%%"NOUN.*Case=Gen\|Gender=Fem.*"%%]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag=%%"Case=Gen"%% & tag=%%"NOUN"%% & tag=%%"Gender=Fem"%%]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. </wrap> | <wrap lo>%%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag=%%"NOUN.*Case=Gen\|Gender=Fem.*"%%]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag=%%"Case=Gen"%% & tag=%%"NOUN"%% & tag=%%"Gender=Fem"%%]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. </wrap> |
| |
Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Můžete využít třeba výpisy značek z korpusu ve výše uvedené tabulce. Nebo na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//. | Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Můžete využít třeba výpisy značek z korpusu ve výše uvedené tabulce – viz sloupec **Značky v korpusu**. Nebo na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//. |
| |
U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky. | U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky. |
^Struktura^Atribut^Popis^Možné hodnoty^ | ^Struktura^Atribut^Popis^Možné hodnoty^ |
|doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | | |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | |
| |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha | | |text|text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha | |
| |text.author|autor textu|příjmení, jméno| | | |text.author|autor textu|příjmení, jméno| |
| |text.title|úplný název textu|text| | | |text.title|úplný název textu|text| |
* [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi) | * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi) |
* [[http://omilia.uio.no/obt/|tagger]] pro norštinu | * [[http://omilia.uio.no/obt/|tagger]] pro norštinu |
* [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi) | * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi) |
* [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu | * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu |
* [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi) | * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi) |
* [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) | * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) |
* [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi) | * [[https://github.com/clarinsi/reldi-tagger|RelDI tagger]] pro chorvatštinu, srbštinu((Ljubešić, N., Klubička, F., Željko Agić, and Jazbec, I.-P. (2016). New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) a slovinštinu((Ljubešić, N. and Erjavec, T. (2016). Corpus vs. lexicon supervision in morphosyntactic tagging: the case of Slovene. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) (s poděkováním Nikolovi Ljubešićovi) |
* [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi) | * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisi Ņikiforovsovi a Michalu Škrabalovi) |
* [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému) | * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému) |
* [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi) | * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi) |