AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze15 [2022/11/21 14:51] – [Obsah korpusu] alexandrrosencnk:intercorp:verze15 [2024/04/18 11:28] (aktuální) – [Morfosyntaktická anotace] - opravené odkazy do KonTextu tomasmachalek
Řádek 1: Řádek 1:
 =====Korpus InterCorp verze 15===== =====Korpus InterCorp verze 15=====
- 
-TODO!!! 
  
 ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  145 640 866 |  116 673 038 |  418 967 492 |  1 548 425 287 +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  148 487 713 |  117 094 767 |  434 905 960 |  1 551 791 814 
-^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  117 606 467 |  89 819 772   348 771 933 |  1 223 221 264 +^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  119 933 378 |  90 181 070  361 991 365 |  1 226 159 823 
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 708 |  30 |  4 220 |   282 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 743 |  33 |  4 372 |   313 
-^ ::: ^ Počet textů |  1 708 |  111 951 |  4 220 |  1 843 528 +^ ::: ^ Počet textů |  1 743 |  112 393 |  4 372 |  1 846 588 
-^ ::: ^ Počet vět |  10 095 074 |  136 606 183 |  25 872 393 |  143 195 566 |+^ ::: ^ Počet vět |  10 288 141 |  13 626 168 |  26 843 652 |  143 334 058 |
 ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^ ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
 ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^ ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^
Řádek 39: Řádek 37:
 Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích.  Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. 
  
-numbers: TODO! +Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 362 milionů slov v jádru a 1 226 milionů slov v kolekcích. V českých textech je v jádru 120 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
- +
-Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.+
  
 [{{:cnk:intercorp:intercorp_wordcounts_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ [{{:cnk:intercorp:intercorp_wordcounts_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\
Řádek 106: Řádek 102:
  
 ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Značky v korpusu  ^ Nástroj  ^ ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Značky v korpusu  ^ Nástroj  ^
-^ angličtina |  ✔    ✔  |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_en&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ angličtina |  ✔    ✔  |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~SYU20meuus0a|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ běloruština |  ✔  |   ✔    [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%)  |   [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_be&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] +^ běloruština |  ✔  |   ✔    [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%)  |   [[https://www.korpus.cz/kontext/wordlist/result?q=~ju0ayEyoeIOi|ukázat]]  |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] 
-^ bulharština |  ✔  |   ✔    [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]]    [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]]  |   [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_bg&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ bulharština |  ✔  |   ✔    [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]]    [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]]  |   [[https://www.korpus.cz/kontext/wordlist/result?q=~b6IUUoMyUs8O|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_cs&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] +^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~wK68uwI0uWiW|ukázat]]  | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] 
-^ čínština |  ✔  |    |  [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]]  |  [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_zh&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] +^ čínština |  ✔  |    |  [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]]  |  [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~uwCay4cSYSy2|ukázat]]  | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] 
-^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |       [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_et&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |       [[https://www.korpus.cz/kontext/wordlist/result?q=~mWSCSIKm8OcY|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ finština |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%)  |  [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%)  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_fi&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] +^ finština |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%)  |  [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%)  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~6iw6q2e06KcI|ukázat]]  |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] 
-^ francouzština |  ✔  |  ✔  |  [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_fr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ francouzština |  ✔  |  ✔  |  [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]]  |      [[https://www.korpus.cz/kontext/wordlist/result?q=~m6aC4MMkssms|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ chorvatština |  ✔  |  ✔  |   [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]]  |  [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]]    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_hr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   | +^ chorvatština |  ✔  |  ✔  |   [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]]  |  [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]]    [[https://www.korpus.cz/kontext/wordlist/result?q=~CeqE4wiqmIoA|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   | 
-^ islandština |  ✔  |  ✔  |  [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]]    [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_is&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] +^ islandština |  ✔  |  ✔  |  [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]]    [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~bEoEKqasyiEe|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] 
-^ italština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]]        [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_it&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ italština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]]        [[https://www.korpus.cz/kontext/wordlist/result?q=~fmIIwaQqWGqm|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ japonština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]]        [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ja&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] +^ japonština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]]        [[https://www.korpus.cz/kontext/wordlist/result?q=~hIOk8CYaIMqm|ukázat]]  | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] 
-^ katalánština |  ✔  |  ✔  |  [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ca&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ katalánština |  ✔  |  ✔  |  [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]]  |      [[https://www.korpus.cz/kontext/wordlist/result?q=~cOI6eWQG0c8O|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ lotyština |  ✔  |  ✔  |   [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_lv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] +^ lotyština |  ✔  |  ✔  |   [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]]  |      [[https://www.korpus.cz/kontext/wordlist/result?q=~GeQ8SSOCouq0|ukázat]]  | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] 
-^ maďarština |  ✔  |        |  [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_hu&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] +^ maďarština |  ✔  |        |  [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~jSyOE2A2KKsQ|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] 
-^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_de&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] +^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~u4ISOKym04am|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] 
-^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_nl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |    [[https://www.korpus.cz/kontext/wordlist/result?q=~KSoiyk0CuCCc|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ norština |  ✔  |  ✔  |  [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]]  |    |    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_no&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]]  | +^ norština |  ✔  |  ✔  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/no/index.html#morphology|anglicky]]%%****%%)     [[https://www.korpus.cz/kontext/wordlist/result?q=~EcIww4ecGgOG|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  | 
-^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] +^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~McUUoI6EwKaC|ukázat]]  |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] 
-^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pt&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[https://www.korpus.cz/kontext/wordlist/result?q=~Fis6w6WSYqYg|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ru&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~Ymey666Kk0qe|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]]  |  [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] +^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]]  |  [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~mKMiKqM6CqO2|ukázat]]  | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] 
-^ slovinština |  ✔  |  ✔  |    [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] +^ slovinština |  ✔  |  ✔  |    [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~FkkKukIsmeue|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] 
-^ srbština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]]  |   [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]]    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   | +^ srbština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]]  |   [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]]    [[https://www.korpus.cz/kontext/wordlist/result?q=~bGMCy2o2EwOM|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   | 
-^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_es&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] +^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[https://www.korpus.cz/kontext/wordlist/result?q=~mQYWIgi6yIK4|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] 
-^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] +^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[https://www.korpus.cz/kontext/wordlist/result?q=~tcGEoMWww0oC|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] 
-^ ukrajinština |  ✔  |  ✔    [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_uk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |+^ ukrajinština |  ✔  |  ✔  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/uk/index.html#morphology|anglicky]]%%****%%)  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~IKEKEIm2Auug|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
  
 <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap>
Řádek 221: Řádek 217:
   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky
   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
-  * [[http://omilia.uio.no/obt/|tagger]] pro norštinu 
   * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi)    * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi) 
   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu
Řádek 246: Řádek 241:
 Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
  
-ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 14 ze 311. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https://kontext.korpus.cz/+ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 15 ze 1111. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https://kontext.korpus.cz/
  
 </WRAP> </WRAP>