Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze16 [2023/10/11 12:37] – alexandrrosen | cnk:intercorp:verze16 [2024/04/18 12:23] (aktuální) – [Morfosyntaktická anotace] tomasmachalek |
---|
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ | ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 154 512 254 | 363 685 460 | 464 653 933 | 5 840 602 221 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 154 512 254 | 363 685 460 | 464 653 933 | 5 840 602 221 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 124 679 582 | 272 862 335 | 385 348 449 | 4 505 550 764 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 124 679 582 | 272 862 335 | 386 728 679 | 4 505 550 764 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 812 | 33 | 4 643 | 338 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 812 | 33 | 4 643 | 338 | |
^ ::: ^ Počet textů | 1 812 | 162 612 | 4 643 | 2 662 665 | | ^ ::: ^ Počet textů | 1 812 | 162 612 | 4 643 | 2 662 665 | |
Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. | Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. |
| |
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 16 z roku 2023 činí v zarovnaných cizojazyčných textech 385 milionů slov v jádru a 4 506 milionů slov v kolekcích. V českých textech je v jádru 125 a v kolekcích 273 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 16 z roku 2023 činí v zarovnaných cizojazyčných textech 387 milionů slov v jádru a 4 506 milionů slov v kolekcích. V českých textech je v jádru 125 a v kolekcích 273 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. |
| |
[{{:cnk:intercorp:intercorp_wordcounts_v16.png?1000|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ | [{{:cnk:intercorp:intercorp_wordcounts_v16.png?1000|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ |
| |
^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ | ^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ |
^ af ^ afrikánština | 0 | 0 | 0 | 0 | 0 | 106 | 0 | 106 | | ^ af ^ afrikánština | 0 | 0 | 0 | 0 | 0 | 136 | 0 | 136 | |
^ ar ^ arabština | 34 | 0 | 0 | 0 | 0 | 52 441 | 0 | 52 476 | | ^ ar ^ arabština | 34 | 384 | 0 | 0 | 0 | 126 157 | 0 | 126 576 | |
^ be ^ běloruština | 7 131 | 0 | 0 | 0 | 0 | 0 | 0 | 7 131 | | ^ be ^ běloruština | 7 131 | 0 | 0 | 0 | 0 | 0 | 0 | 7 131 | |
^ bg ^ bulharština | 7 068 | 0 | 0 | 13 577 | 9 083 | 72 557 | 0 | 102 285 | | ^ bg ^ bulharština | 7 068 | 0 | 0 | 13 577 | 9 083 | 165 092 | 0 | 194 820 | |
^ bn ^ bengálština | 0 | 0 | 0 | 0 | 0 | 1 467 | 0 | 1 467 | | ^ bn ^ bengálština | 0 | 0 | 0 | 0 | 0 | 1 554 | 0 | 1 554 | |
^ br ^ bretonština | 0 | 0 | 0 | 0 | 0 | 24 | 0 | 24 | | ^ br ^ bretonština | 0 | 0 | 0 | 0 | 0 | 98 | 0 | 98 | |
^ bs ^ bosenština | 0 | 0 | 0 | 0 | 0 | 30 763 | 0 | 30 763 | | ^ bs ^ bosenština | 0 | 0 | 0 | 0 | 0 | 58 758 | 0 | 58 758 | |
^ ca ^ katalánština | 10 112 | 0 | 0 | 0 | 0 | 695 | 736 | 11 542 | | ^ ca ^ katalánština | 10 112 | 0 | 0 | 0 | 0 | 2 735 | 736 | 13 582 | |
^ cs ^ čeština | 124 918 | 4 717 | 2 312 | 19 214 | 12 917 | 73 954 | 563 | 238 595 | | ^ cs ^ čeština | 124 680 | 4 717 | 2 312 | 19 214 | 12 917 | 233 139 | 563 | 397 542 | |
^ da ^ dánština | 9 548 | 0 | 0 | 20 313 | 13 916 | 40 037 | 657 | 84 471 | | ^ da ^ dánština | 9 548 | 0 | 0 | 20 313 | 13 916 | 71 825 | 657 | 116 259 | |
^ de ^ němčina | 40 604 | 5 065 | 2 483 | 20 610 | 13 089 | 46 463 | 724 | 129 039 | | ^ de ^ němčina | 40 679 | 5 067 | 2 483 | 20 610 | 13 089 | 98 566 | 724 | 181 219 | |
^ el ^ řečtina | 0 | 0 | 0 | 23 853 | 15 404 | 74 620 | 0 | 113 876 | | ^ el ^ řečtina | 0 | 0 | 0 | 23 853 | 15 404 | 162 561 | 0 | 201 818 | |
^ en ^ angličtina | 42 395 | 5 273 | 2 670 | 22 902 | 15 576 | 122 210 | 730 | 211 757 | | ^ en ^ angličtina | 42 395 | 5 273 | 2 670 | 22 902 | 15 576 | 280 335 | 730 | 369 882 | |
^ eo ^ esperanto | 0 | 0 | 0 | 0 | 0 | 226 | 0 | 226 | | ^ eo ^ esperanto | 0 | 0 | 0 | 0 | 0 | 226 | 0 | 226 | |
^ es ^ španělština | 30 661 | 6 074 | 2 859 | 26 262 | 16 249 | 96 095 | 0 | 178 200 | | ^ es ^ španělština | 30 661 | 6 074 | 2 859 | 26 262 | 16 249 | 223 134 | 0 | 305 240 | |
^ et ^ estonština | 79 | 0 | 0 | 14 896 | 10 899 | 32 474 | 0 | 58 348 | | ^ et ^ estonština | 79 | 0 | 0 | 14 896 | 10 899 | 54 514 | 0 | 80 388 | |
^ eu ^ baskičtina | 0 | 0 | 0 | 0 | 0 | 2 418 | 0 | 2 418 | | ^ eu ^ baskičtina | 0 | 0 | 0 | 0 | 0 | 3 022 | 0 | 3 022 | |
^ fa ^ perština | 0 | 0 | 0 | 0 | 0 | 18 666 | 0 | 18 666 | | ^ fa ^ perština | 0 | 0 | 0 | 0 | 0 | 33 167 | 0 | 33 167 | |
^ fi ^ finština | 313 | 0 | 0 | 15 269 | 10 108 | 41 839 | 543 | 68 071 | | ^ fi ^ finština | 6 959 | 0 | 0 | 15 269 | 10 108 | 90 471 | 543 | 123 349 | |
^ fr ^ francouzština | 24 198 | 5 896 | 3 046 | 26 200 | 17 179 | 75 959 | 764 | 153 242 | | ^ fr ^ francouzština | 24 361 | 5 896 | 3 046 | 26 200 | 17 179 | 181 433 | 764 | 258 879 | |
^ gl ^ galicijština | 0 | 0 | 0 | 0 | 0 | 460 | 0 | 460 | | ^ gl ^ galicijština | 0 | 0 | 0 | 0 | 0 | 623 | 0 | 623 | |
^ he ^ hebrejština | 0 | 0 | 0 | 0 | 0 | 52 132 | 0 | 52 132 | | ^ he ^ hebrejština | 0 | 0 | 0 | 0 | 0 | 130 143 | 0 | 130 143 | |
^ hi ^ hindština | 409 | 0 | 0 | 0 | 0 | 417 | 0 | 826 | | ^ hi ^ hindština | 409 | 0 | 0 | 0 | 0 | 432 | 0 | 841 | |
^ hr ^ chorvatština | 24 529 | 0 | 0 | 0 | 0 | 60 603 | 571 | 85 703 | | ^ hr ^ chorvatština | 24 529 | 0 | 0 | 0 | 0 | 137 966 | 571 | 163 066 | |
^ hs ^ hornolužičtina | 466 | 0 | 0 | 0 | 0 | 0 | 0 | 466 | | ^ hs ^ hornolužická srbština | 466 | 0 | 0 | 0 | 0 | 0 | 0 | 466 | |
^ hu ^ maďarština | 6 921 | 8 | 0 | 17 852 | 12 198 | 51 892 | 0 | 88 871 | | ^ hu ^ maďarština | 6 921 | 8 | 0 | 17 852 | 12 198 | 141 691 | 0 | 178 670 | |
^ hy ^ arménština | 0 | 0 | 0 | 0 | 0 | 24 | 0 | 24 | | ^ hy ^ arménština | 0 | 0 | 0 | 0 | 0 | 24 | 0 | 24 | |
^ id ^ indonéština | 0 | 0 | 0 | 0 | 0 | 23 880 | 0 | 23 880 | | ^ id ^ indonéština | 0 | 0 | 0 | 0 | 0 | 38 343 | 0 | 38 343 | |
^ is ^ islandština | 0 | 0 | 0 | 0 | 0 | 7 058 | 0 | 7 058 | | ^ is ^ islandština | 0 | 0 | 0 | 0 | 0 | 7 375 | 0 | 7 375 | |
^ it ^ italština | 18 086 | 1 389 | 2 747 | 23 771 | 15 494 | 57 083 | 684 | 119 254 | | ^ it ^ italština | 18 086 | 1 389 | 2 747 | 23 771 | 15 494 | 163 622 | 684 | 225 793 | |
^ ja ^ japonština | 3 818 | 2 | 0 | 0 | 0 | 5 966 | 0 | 9 786 | | ^ ja ^ japonština | 3 818 | 2 | 0 | 0 | 0 | 12 485 | 0 | 16 305 | |
^ ka ^ gruzínština | 0 | 0 | 0 | 0 | 0 | 595 | 0 | 595 | | ^ ka ^ gruzínština | 0 | 0 | 0 | 0 | 0 | 889 | 0 | 889 | |
^ kk ^ kazaština | 0 | 0 | 0 | 0 | 0 | 14 | 0 | 14 | | ^ kk ^ kazaština | 0 | 0 | 0 | 0 | 0 | 14 | 0 | 14 | |
^ ko ^ korejština | 0 | 0 | 0 | 0 | 0 | 2 997 | 0 | 2 997 | | ^ ko ^ korejština | 0 | 0 | 0 | 0 | 0 | 5 980 | 0 | 5 980 | |
^ lt ^ litevština | 696 | 0 | 0 | 17 316 | 11 213 | 5 002 | 471 | 34 697 | | ^ lt ^ litevština | 696 | 0 | 0 | 17 316 | 11 213 | 5 269 | 471 | 34 964 | |
^ lv ^ lotyština | 3 636 | 0 | 0 | 17 533 | 11 682 | 1 617 | 537 | 35 005 | | ^ lv ^ lotyština | 3 636 | 0 | 0 | 17 533 | 11 682 | 2 053 | 537 | 35 441 | |
^ mk ^ makedonština | 8 881 | 0 | 0 | 0 | 0 | 10 693 | 0 | 19 575 | | ^ mk ^ makedonština | 8 881 | 0 | 0 | 0 | 0 | 15 595 | 0 | 24 476 | |
^ ml ^ malajámština | 0 | 0 | 0 | 0 | 0 | 1 238 | 0 | 1 238 | | ^ ml ^ malajámština | 0 | 0 | 0 | 0 | 0 | 1 281 | 0 | 1 281 | |
^ ms ^ malajština | 0 | 0 | 0 | 0 | 0 | 6 434 | 0 | 6 434 | | ^ ms ^ malajština | 0 | 0 | 0 | 0 | 0 | 7 939 | 0 | 7 939 | |
^ mt ^ maltština | 0 | 0 | 0 | 13 935 | 0 | 0 | 0 | 13 935 | | ^ mt ^ maltština | 0 | 0 | 0 | 13 935 | 0 | 0 | 0 | 13 935 | |
^ nl ^ nizozemština | 18 782 | 812 | 2 953 | 23 416 | 15 558 | 69 366 | 717 | 131 604 | | ^ nl ^ nizozemština | 18 782 | 812 | 2 953 | 23 416 | 15 558 | 170 979 | 717 | 233 217 | |
^ no ^ norština | 8 221 | 0 | 0 | 0 | 0 | 22 618 | 724 | 31 563 | | ^ no ^ norština | 8 221 | 0 | 0 | 0 | 0 | 39 807 | 724 | 48 752 | |
^ pl ^ polština | 2 179 | 0 | 2 380 | 19 604 | 12 817 | 70 509 | 583 | 108 073 | | ^ pl ^ polština | 28 597 | 0 | 2 380 | 19 604 | 12 817 | 169 498 | 583 | 233 480 | |
^ pt ^ portugalština | 7 285 | 739 | 2 782 | 24 598 | 15 193 | 99 485 | 706 | 150 787 | | ^ pt ^ portugalština | 7 285 | 739 | 2 782 | 24 598 | 15 193 | 229 515 | 706 | 280 818 | |
^ rn ^ romština | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 | | ^ rn ^ romština | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 | |
^ ro ^ rumunština | 4 219 | 0 | 2 738 | 8 092 | 9 446 | 92 608 | 0 | 117 103 | | ^ ro ^ rumunština | 4 219 | 0 | 2 738 | 8 092 | 9 446 | 212 396 | 0 | 236 890 | |
^ ru ^ ruština | 12 387 | 4 301 | 0 | 0 | 0 | 35 569 | 565 | 52 822 | | ^ ru ^ ruština | 12 387 | 4 302 | 0 | 0 | 0 | 104 609 | 565 | 121 864 | |
^ si ^ sinhálština | 0 | 0 | 0 | 0 | 0 | 1 453 | 0 | 1 453 | | ^ si ^ sinhálština | 0 | 0 | 0 | 0 | 0 | 2 346 | 0 | 2 346 | |
^ sk ^ slovenština | 369 | 0 | 0 | 18 399 | 12 727 | 17 640 | 561 | 49 695 | | ^ sk ^ slovenština | 8 586 | 0 | 0 | 18 399 | 12 727 | 34 581 | 561 | 74 854 | |
^ sl ^ slovinština | 4 636 | 0 | 0 | 18 515 | 12 241 | 44 209 | 0 | 79 601 | | ^ sl ^ slovinština | 4 636 | 0 | 0 | 18 515 | 12 241 | 83 000 | 0 | 118 392 | |
^ sq ^ albánština | 0 | 0 | 0 | 0 | 0 | 8 394 | 0 | 8 394 | | ^ sq ^ albánština | 0 | 0 | 0 | 0 | 0 | 9 351 | 0 | 9 351 | |
^ sr ^ srbština | 12 706 | 0 | 0 | 0 | 0 | 73 683 | 0 | 86 389 | | ^ sr ^ srbština | 12 706 | 0 | 0 | 0 | 0 | 152 636 | 0 | 165 342 | |
^ sv ^ švédština | 19 740 | 0 | 0 | 19 542 | 13 784 | 44 017 | 638 | 97 720 | | ^ sv ^ švédština | 19 740 | 0 | 0 | 19 542 | 13 784 | 81 548 | 638 | 135 252 | |
^ ta ^ tamilština | 0 | 0 | 0 | 0 | 0 | 104 | 0 | 104 | | ^ ta ^ tamilština | 0 | 0 | 0 | 0 | 0 | 104 | 0 | 104 | |
^ te ^ telugština | 0 | 0 | 0 | 0 | 0 | 96 | 0 | 96 | | ^ te ^ telugština | 0 | 0 | 0 | 0 | 0 | 96 | 0 | 96 | |
^ th ^ thajština | 0 | 0 | 0 | 0 | 0 | 2 528 | 0 | 2 528 | | ^ th ^ thajština | 0 | 0 | 0 | 0 | 0 | 5 660 | 0 | 5 660 | |
^ tl ^ tagalština | 0 | 0 | 0 | 0 | 0 | 38 | 0 | 38 | | ^ tl ^ tagalština | 0 | 0 | 0 | 0 | 0 | 38 | 0 | 38 | |
^ tr ^ turečtina | 0 | 0 | 0 | 0 | 0 | 67 768 | 0 | 67 768 | | ^ tr ^ turečtina | 0 | 0 | 0 | 0 | 0 | 149 892 | 0 | 149 892 | |
^ uk ^ ukrajinština | 14 849 | 0 | 0 | 0 | 0 | 1 361 | 596 | 16 805 | | ^ uk ^ ukrajinština | 14 849 | 0 | 0 | 0 | 0 | 2 938 | 596 | 18 382 | |
^ ur ^ urdština | 0 | 0 | 0 | 0 | 0 | 155 | 0 | 155 | | ^ ur ^ urdština | 0 | 0 | 0 | 0 | 0 | 158 | 0 | 158 | |
^ vi ^ vietnamština | 0 | 0 | 0 | 0 | 0 | 14 099 | 0 | 14 099 | | ^ vi ^ vietnamština | 0 | 0 | 0 | 0 | 0 | 22 298 | 0 | 22 298 | |
^ zh ^ čínština | 238 | 836 | 0 | 0 | 0 | 47 131 | 0 | 48 205 | | ^ zh ^ čínština | 238 | 838 | 0 | 0 | 0 | 71 331 | 0 | 72 407 | |
^ **CELKEM** ^ | 470 127 | 35 114 | 26 971 | 425 670 | 276 772 | 1 783 948 | 12 069 | 3 030 671 | | ^ **CELKEM** ^ | 511 408 | 35 503 | 26 971 | 425 670 | 276 772 | 4 001 428 | 12 069 | 5 289 821 | |
| |
Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. | Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. |
| |
| ====Počet textů v jádru korpusu==== |
| |
| ^ Zkratka ^ Jazyk ^ Počet textů ^ z toho originály ^ |
| ^ ar ^ arabština | 3 | 1 | |
| ^ be ^ běloruština | 108 | 14 | |
| ^ bg ^ bulharština | 87 | 19 | |
| ^ ca ^ katalánština | 92 | 1 | |
| ^ cs ^ čeština | 1 812 | 368 | |
| ^ da ^ dánština | 93 | 9 | |
| ^ de ^ němčina | 471 | 163 | |
| ^ en ^ angličtina | 422 | 271 | |
| ^ es ^ španělština | 355 | 142 | |
| ^ et ^ estonština | 1 | 0 | |
| ^ fi ^ finština | 112 | 36 | |
| ^ fr ^ francouzština | 277 | 126 | |
| ^ hi ^ hindština | 7 | 2 | |
| ^ hr ^ chorvatština | 324 | 37 | |
| ^ hs ^ hornolužická srbština | 13 | 5 | |
| ^ hu ^ maďarština | 89 | 1 | |
| ^ it ^ italština | 171 | 26 | |
| ^ ja ^ japonština | 35 | 15 | |
| ^ lt ^ litevština | 23 | 4 | |
| ^ lv ^ lotyština | 73 | 15 | |
| ^ mk ^ makedonština | 108 | 4 | |
| ^ nl ^ nizozemština | 215 | 52 | |
| ^ no ^ norština | 102 | 23 | |
| ^ pl ^ polština | 348 | 54 | |
| ^ pt ^ portugalština | 87 | 24 | |
| ^ rn ^ romština | 2 | 2 | |
| ^ ro ^ rumunština | 45 | 5 | |
| ^ ru ^ ruština | 160 | 37 | |
| ^ sk ^ slovenština | 165 | 62 | |
| ^ sl ^ slovinština | 73 | 25 | |
| ^ sr ^ srbština | 148 | 13 | |
| ^ sv ^ švédština | 232 | 101 | |
| ^ uk ^ ukrajinština | 199 | 8 | |
| ^ zh ^ čínština | 3 | 3 | |
| ^ **CELKEM** ^ | 6 455 | 1 668 | |
| |
==== Morfosyntaktická anotace ==== | ==== Morfosyntaktická anotace ==== |
| |
^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Značky v korpusu ^ Nástroj ^ | ^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Značky v korpusu ^ Nástroj ^ |
^ angličtina | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_en&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ angličtina | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~AoIeKE4AOIoO|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ běloruština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_be&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ běloruština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~WUgyKq0a2I2I|ukázat]] |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
^ bulharština | ✔ | ✔ | [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]] | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_bg&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ bulharština | ✔ | ✔ | [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]] | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~deauEUMQSay2|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_cs&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] | | ^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~dWMc6cC2mEYI|ukázat]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] | |
^ čínština | ✔ | | [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]] | [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_zh&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] | | ^ čínština | ✔ | | [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]] | [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~Qy0WEKcyKCAG|ukázat]] | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] | |
^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_et&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~OYogQQcMUc86|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ finština | ✔ | ✔ | [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%) | [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_fi&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] | | ^ finština | ✔ | ✔ | [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%) | [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~BwiUqc2SoaKY|ukázat]] |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] | |
^ francouzština | ✔ | ✔ | [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_fr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ francouzština | ✔ | ✔ | [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~MEY8qsoECM42|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_hr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | | ^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~ve6ySioUWoQo|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_is&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | | ^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~OSQqSoscsiiG|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | |
^ italština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_it&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ italština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~AG82UCM6swiK|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ japonština | ✔ | ✔ | [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ja&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] | | ^ japonština | ✔ | ✔ | [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~v8EQwWqiygis|ukázat]] | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] | |
^ katalánština | ✔ | ✔ | [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ca&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ katalánština | ✔ | ✔ | [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~xIQI46GMkQMc|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_lv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] | | ^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~NiGIW6iec6eq|ukázat]] | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] | |
^ maďarština | ✔ | | | [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_hu&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | | ^ maďarština | ✔ | | | [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~CCeWgGmqmcqi|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | |
^ němčina | ✔ | ✔ | [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_de&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | | ^ němčina | ✔ | ✔ | [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~gs4MCm8iuEea|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | |
^ nizozemština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_nl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ nizozemština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~58AMOGUAOg6I|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ norština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/no/index.html#morphology|anglicky]]%%****%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_no&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ norština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/no/index.html#morphology|anglicky]]%%****%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~I6aemQOK8yiU|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] | | ^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~ReKM6qg4Ic8W|ukázat]] |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] | |
^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pt&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~saGaiAI0uEMo|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ru&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~T2sc4y6Uw2WO|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]] | [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | | ^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]] | [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~qkQQs4cq2IyG|ukázat]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | |
^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | | ^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~jQMEsa8MuCQm|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ srbština | ✔ | ✔ | [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | | ^ srbština | ✔ | ✔ | [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~3C8YOAWM0IIC|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_es&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~twEuIaMu4sSQ|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~hOAuiSoQMGQe|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | |
^ ukrajinština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/uk/index.html#morphology|anglicky]]%%****%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_uk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ ukrajinština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/uk/index.html#morphology|anglicky]]%%****%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~iQ0owcu4o2eQ|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
| |
<wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> | <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> |