AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze13 [2020/10/27 20:07] – [Morfosyntaktická anotace] alexandrrosencnk:intercorp:verze13 [2024/04/18 12:47] (aktuální) – [Morfosyntaktická anotace] michalkren
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  141 032 521 |  116 673 043 |  394 042 551 |  1 550 071 364 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  141 032 521 |  116 673 043 |  394 042 551 |  1 550 071 364 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  113 838 505 |  89 819 773 |   327 968 369 |  1 223 270 610 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  113 838 505 |  89 819 773 |   327 968 369 |  1 223 270 610 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 657 |  30 |  3 993 |   282 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 657 |  30 |  3 993 |   282 |
 ^ ::: ^ Počet textů |  1 657 |  111 951 |  3 993 |  1 843 528 | ^ ::: ^ Počet textů |  1 657 |  111 951 |  3 993 |  1 843 528 |
 ^ ::: ^ Počet vět |  9 782 001 |  13 606 183 |  24 305 621 |  143 195 566 | ^ ::: ^ Počet vět |  9 782 001 |  13 606 183 |  24 305 621 |  143 195 566 |
Řádek 56: Řádek 56:
 Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13 z listopadu 2020 činí v zarovnaných cizojazyčných textech 328 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13 z listopadu 2020 činí v zarovnaných cizojazyčných textech 328 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
  
-[{{:cnk:intercorp:intercorp_wordcounts_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]+[{{:cnk:intercorp:intercorp_wordcounts_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ 
 + 
 + 
 +[{{:cnk:intercorp:intercorp_wordcounts2_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\
  
-[{{:cnk:intercorp:intercorp_wordcounts2_v13.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] 
  
 [{{:cnk:intercorp:intercorp_wordcounts3_v13.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] [{{:cnk:intercorp:intercorp_wordcounts3_v13.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}]
Řádek 65: Řádek 67:
  
 ^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ ^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^
- ar  arabština |  34 |  0 |  0 |  0 |  0 |  0 |  0 |  34 | + ar  arabština |  34 |  0 |  0 |  0 |  0 |  0 |  0 |  34 | 
- be  běloruština |  5 718 |  0 |  0 |  0 |  0 |  0 |  0 |  5 718 | + be  běloruština |  5 718 |  0 |  0 |  0 |  0 |  0 |  0 |  5 718 | 
- bg  bulharština |  7 068 |  0 |  0 |  13 577 |  9 083 |  0 |  0 |  29 728 | + bg  bulharština |  7 068 |  0 |  0 |  13 577 |  9 083 |  0 |  0 |  29 728 | 
- ca  katalánština |  7 938 |  0 |  0 |  0 |  0 |  0 |  736 |  8 674 | + ca  katalánština |  7 938 |  0 |  0 |  0 |  0 |  0 |  736 |  8 674 | 
- da  dánština |  7 136 |  0 |  0 |  20 313 |  13 916 |  14 429 |  657 |  56 451 | + da  dánština |  7 136 |  0 |  0 |  20 313 |  13 916 |  14 429 |  657 |  56 451 | 
- de  němčina |  37 633 |  4 704 |  2 483 |  20 610 |  13 088 |  8 392 |  724 |  87 634 | + de  němčina |  37 633 |  4 704 |  2 483 |  20 610 |  13 088 |  8 392 |  724 |  87 634 | 
- el  řečtina |  0 |  0 |  0 |  23 853 |  15 404 |  23 709 |  0 |  62 966 | + el  řečtina |  0 |  0 |  0 |  23 853 |  15 404 |  23 709 |  0 |  62 966 | 
- en  angličtina |  33 569 |  4 856 |  2 670 |  22 902 |  15 576 |  52 106 |  730 |  132 409 | + en  angličtina |  33 569 |  4 856 |  2 670 |  22 902 |  15 576 |  52 106 |  730 |  132 409 | 
- es  španělština |  26 554 |  5 614 |  2 859 |  26 262 |  16 249 |  36 650 |  0 |  114 187 | + es  španělština |  26 554 |  5 614 |  2 859 |  26 262 |  16 249 |  36 650 |  0 |  114 187 | 
- et  estonština |  0 |  0 |  0 |  14 896 |  10 899 |  10 298 |  0 |  36 093 | + et  estonština |  0 |  0 |  0 |  14 896 |  10 899 |  10 298 |  0 |  36 093 | 
- fi  finština |  5 656 |  0 |  0 |  15 269 |  10 108 |  15 047 |  543 |  46 622 | + fi  finština |  5 656 |  0 |  0 |  15 269 |  10 108 |  15 047 |  543 |  46 622 | 
- fr  francouzština |  19 773 |  5 600 |  3 046 |  26 200 |  17 179 |  25 986 |  764 |  98 547 | + fr  francouzština |  19 773 |  5 600 |  3 046 |  26 200 |  17 179 |  25 986 |  764 |  98 547 | 
- he  hebrejština |  0 |  0 |  0 |  0 |  0 |  16 221 |  0 |  16 221 | + he  hebrejština |  0 |  0 |  0 |  0 |  0 |  16 221 |  0 |  16 221 | 
- hi  hindština |  409 |  0 |  0 |  0 |  0 |  0 |  0 |  409 | + hi  hindština |  409 |  0 |  0 |  0 |  0 |  0 |  0 |  409 | 
- hr  chorvatština |  21 923 |  0 |  0 |  0 |  0 |  19 048 |  571 |  41 543 | + hr  chorvatština |  21 923 |  0 |  0 |  0 |  0 |  19 048 |  571 |  41 543 | 
- hu  maďarština |  6 444 |  0 |  0 |  17 852 |  12 198 |  21 115 |  0 |  57 609 | + hu  maďarština |  6 444 |  0 |  0 |  17 852 |  12 198 |  21 115 |  0 |  57 609 | 
- is  islandština |  0 |  0 |  0 |  0 |  0 |  1 581 |  0 |  1 581 | + is  islandština |  0 |  0 |  0 |  0 |  0 |  1 581 |  0 |  1 581 | 
- it  italština |  14 525 |  1 252 |  2 747 |  23 771 |  15 494 |  14 700 |  684 |  73 174 | + it  italština |  14 525 |  1 252 |  2 747 |  23 771 |  15 494 |  14 700 |  684 |  73 174 | 
- ja  japonština |  2 189 |  0 |  0 |  0 |  0 |  477 |  0 |  2 666 | + ja  japonština |  2 189 |  0 |  0 |  0 |  0 |  477 |  0 |  2 666 | 
- lt  litevština |  421 |  0 |  0 |  17 316 |  11 213 |  558 |  471 |  29 979 | + lt  litevština |  421 |  0 |  0 |  17 316 |  11 213 |  558 |  471 |  29 979 | 
- lv  lotyština |  2 646 |  0 |  0 |  17 522 |  11 682 |  280 |  537 |  32 667 | + lv  lotyština |  2 646 |  0 |  0 |  17 522 |  11 682 |  280 |  537 |  32 667 | 
- mk  makedonština |  8 881 |  0 |  0 |  0 |  0 |  1 877 |  0 |  10 758 | + mk  makedonština |  8 881 |  0 |  0 |  0 |  0 |  1 877 |  0 |  10 758 | 
- ms  malajština |  0 |  0 |  0 |  0 |  0 |  3 521 |  0 |  3 521 | + ms  malajština |  0 |  0 |  0 |  0 |  0 |  3 521 |  0 |  3 521 | 
- mt  maltština |  0 |  0 |  0 |  13 935 |  0 |  0 |  0 |  13 935 | + mt  maltština |  0 |  0 |  0 |  13 935 |  0 |  0 |  0 |  13 935 | 
- nl  nizozemština |  16 216 |  813 |  2 953 |  23 416 |  15 558 |  29 373 |  717 |  89 045 | + nl  nizozemština |  16 216 |  813 |  2 953 |  23 416 |  15 558 |  29 373 |  717 |  89 045 | 
- no  norština |  7 727 |  0 |  0 |  0 |  0 |  0 |  722 |  8 449 | + no  norština |  7 727 |  0 |  0 |  0 |  0 |  0 |  722 |  8 449 | 
- pl  polština |  26 200 |  0 |  2 380 |  19 604 |  12 817 |  26 576 |  583 |  88 161 | + pl  polština |  26 200 |  0 |  2 380 |  19 604 |  12 817 |  26 576 |  583 |  88 161 | 
- pt  portugalština |  4 981 |  554 |  2 782 |  24 598 |  15 193 |  41 468 |  706 |  90 282 | + pt  portugalština |  4 981 |  554 |  2 782 |  24 598 |  15 193 |  41 468 |  706 |  90 282 | 
- rn  romština |  14 |  0 |  0 |  0 |  0 |  0 |  0 |  14 | + rn  romština |  14 |  0 |  0 |  0 |  0 |  0 |  0 |  14 | 
- ro  rumunština |  4 219 |  0 |  2 738 |  8 092 |  9 446 |  34 128 |  0 |  58 622 | + ro  rumunština |  4 219 |  0 |  2 738 |  8 092 |  9 446 |  34 128 |  0 |  58 622 | 
- ru  ruština |  8 642 |  3 984 |  0 |  0 |  0 |  6 887 |  565 |  20 078 | + ru  ruština |  8 642 |  3 984 |  0 |  0 |  0 |  6 887 |  565 |  20 078 | 
- sk  slovenština |  8 543 |  0 |  0 |  18 399 |  12 727 |  5 133 |  561 |  45 363 | + sk  slovenština |  8 543 |  0 |  0 |  18 399 |  12 727 |  5 133 |  561 |  45 363 | 
- sl  slovinština |  3 871 |  0 |  0 |  18 528 |  12 251 |  17 061 |  0 |  51 711 | + sl  slovinština |  3 871 |  0 |  0 |  18 528 |  12 251 |  17 061 |  0 |  51 711 | 
- sq  albánština |  0 |  0 |  0 |  0 |  0 |  2 003 |  0 |  2 003 | + sq  albánština |  0 |  0 |  0 |  0 |  0 |  2 003 |  0 |  2 003 | 
- sr  srbština |  11 582 |  0 |  0 |  0 |  0 |  20 727 |  0 |  32 308 | + sr  srbština |  11 582 |  0 |  0 |  0 |  0 |  20 727 |  0 |  32 308 | 
- sv  švédština |  15 790 |  0 |  0 |  19 542 |  13 784 |  14 666 |  638 |  64 419 | + sv  švédština |  15 790 |  0 |  0 |  19 542 |  13 784 |  14 666 |  638 |  64 419 | 
- tr  turečtina |  0 |  0 |  0 |  0 |  0 |  21 190 |  0 |  21 190 | + tr  turečtina |  0 |  0 |  0 |  0 |  0 |  21 190 |  0 |  21 190 | 
- uk  ukrajinština |  11 459 |  0 |  0 |  0 |  0 |  244 |  596 |  12 299 | + uk  ukrajinština |  11 459 |  0 |  0 |  0 |  0 |  244 |  596 |  12 299 | 
- vi  vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 | + vi  vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 | 
- zh  čínština |  127 |  240 |  0 |  0 |  0 |  2 247 |  0 |  2 614 | + zh  čínština |  127 |  240 |  0 |  0 |  0 |  2 247 |  0 |  2 614 | 
-**celkem** |   |  327 887 |  27 616 |  24 658 |  406 459 |  263 864 |  489 169 |  11 504 |  1 551 157 | +**celkem** ^|  327 887 |  27 616 |  24 658 |  406 459 |  263 864 |  489 169 |  11 504 |  1 551 157 | 
- cs  čeština |  113 839 |  4 351 |  2 310 |  19 085 |  12 908 |  50 604 |  562 |  203 658 | + cs  čeština |  113 839 |  4 351 |  2 310 |  19 085 |  12 908 |  50 604 |  562 |  203 658 | 
-**CELKEM** |   |  441 725 |  31 967 |  26 968 |  425 543 |  276 772 |  539 774 |  12 066 |  1 754 815 |+**CELKEM** ^|  441 725 |  31 967 |  26 968 |  425 543 |  276 772 |  539 774 |  12 066 |  1 754 815 |
  
 Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Řádek 115: Řádek 117:
 Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek.  Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]]. Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek.  Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]].
  
-^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis   Značky v korpusu  ^ Nástroj +^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^ Nástroj 
-^ angličtina |  ✔    ✔  |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_en&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ angličtina |  ✔    ✔  |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ běloruština |  ✔  |   ✔    [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%)    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_be&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] +^ běloruština |  ✔  |   ✔    [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%)  |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] 
-^ bulharština |  ✔  |   ✔    [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]]    [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]]  |   [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_bg&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ bulharština |  ✔  |   ✔    [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]]    [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_cs&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] +^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] 
-^ čínština |  ✔  |    |  [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]]  |  [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_zh&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] +^ čínština |  ✔  |    |  [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]]  |  [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]]  | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] 
-^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |     |   [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_et&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |     | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ finština |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%)  |  [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%)   [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_fi&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] +^ finština |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%)  |  [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%)  |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] 
-^ francouzština |  ✔  |  ✔  |  [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]]  |     |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_fr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ francouzština |  ✔  |  ✔  |  [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]]  |     |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ chorvatština |  ✔  |  ✔  |   [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]]  |  [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]]   |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_hr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/uzh/reldi|ReLDI Tagger]]   | +^ chorvatština |  ✔  |  ✔  |   [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]]  |  [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]]   | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   | 
-^ islandština |  ✔  |  ✔  |  [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]]    [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_is&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] +^ islandština |  ✔  |  ✔  |  [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]]    [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] 
-^ italština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]]       |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_it&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ italština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]]       |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ japonština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]]       |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_ja&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] +^ japonština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]]       | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] 
-^ katalánština |  ✔  |  ✔  |  [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]]  |     |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_ca&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ katalánština |  ✔  |  ✔  |  [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]]  |     | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ lotyština |  ✔  |  ✔  |   [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]]  |     |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_lv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] +^ lotyština |  ✔  |  ✔  |   [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]]  |     | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] 
-^ maďarština |  ✔  |        |  [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_hu&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] +^ maďarština |  ✔  |        |  [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] 
-^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_de&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] +^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] 
-^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |   |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_nl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |   | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ norština |  ✔  |  ✔  |  [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] a [[http://tekstlab.uio.no/obt-ny/index.html|norsky]]  |    |    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_no&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]] +^ norština |  ✔  |  ✔  |  [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] a [[http://tekstlab.uio.no/obt-ny/index.html|norsky]]  |    | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]] 
-^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_pl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] +^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] 
-^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |     |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_pt&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |     | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)   [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_ru&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]]  |  [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] +^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]]  |  [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]]  | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] 
-^ slovinština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/slovene-tagset-multext-east-v3/|anglicky]]   |  [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.html|anglicky]]  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://nl2.ijs.si/analyze/|ToTaLe]]  | +^ slovinština |  ✔  |  ✔  |    [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]  | 
-^ srbština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]]  |   [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]]   |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/uzh/reldi|ReLDI Tagger]]   | +^ srbština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]]  |   [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]]   | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   | 
-^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |     |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_es&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |     | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]       |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_sv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] +^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]       | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] 
-^ ukrajinština |  ✔  |  ✔  |  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)   [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v13_uk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |+^ ukrajinština |  ✔  |  ✔  |  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
  
 <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap>
Řádek 152: Řádek 154:
 <wrap lo>%%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag=%%"NOUN.*Case=Gen\|Gender=Fem.*"%%]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag=%%"Case=Gen"%% & tag=%%"NOUN"%% & tag=%%"Gender=Fem"%%]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. </wrap> <wrap lo>%%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag=%%"NOUN.*Case=Gen\|Gender=Fem.*"%%]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag=%%"Case=Gen"%% & tag=%%"NOUN"%% & tag=%%"Gender=Fem"%%]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. </wrap>
  
-Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Můžete využít třeba výpisy značek z korpusu ve výše uvedené tabulce. Nebo na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//.+Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Můžete využít třeba výpisy značek z korpusu ve výše uvedené tabulce – viz sloupec **Značky v korpusu**. Nebo na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//.
  
 U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky. U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.
Řádek 162: Řádek 164:
 ^Struktura^Atribut^Popis^Možné hodnoty^ ^Struktura^Atribut^Popis^Možné hodnoty^
 |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT |
-| |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha |+|text|text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha |
 | |text.author|autor textu|příjmení, jméno| | |text.author|autor textu|příjmení, jméno|
 | |text.title|úplný název textu|text| | |text.title|úplný název textu|text|
Řádek 230: Řádek 232:
   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
   * [[http://omilia.uio.no/obt/|tagger]] pro norštinu   * [[http://omilia.uio.no/obt/|tagger]] pro norštinu
-  * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi)+  * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi) 
   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu
   * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi)   * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi)
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
-  *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu srbštinu (s poděkováním Nikolovi Ljubešićovi) +  * [[https://github.com/clarinsi/reldi-tagger|RelDI tagger]] pro chorvatštinusrbštinu((Ljubešić, N., Klubička, F., Željko Agić, and Jazbec, I.-P. (2016). New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) a slovinštinu((Ljubešić, N. and Erjavec, T. (2016). Corpus vs. lexicon supervision in morphosyntactic tagging: the case of Slovene. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) (s poděkováním Nikolovi Ljubešićovi) 
-  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)+  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisi Ņikiforovsovi a Michalu Škrabalovi)
   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)
   * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi)   * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi)