Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze14 [2022/04/01 15:49] – [Velikost korpusu v tisících slov] michalskrabal | cnk:intercorp:verze14 [2024/04/18 15:53] (aktuální) – [Morfosyntaktická anotace] michalkren |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 145 640 866 | 116 673 038 | 418 967 492 | 1 548 425 287 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 145 640 866 | 116 673 038 | 418 967 492 | 1 548 425 287 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 117 606 467 | 89 819 772 | 348 771 933 | 1 223 221 264 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 117 606 467 | 89 819 772 | 348 771 933 | 1 223 221 264 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 708 | 30 | 4 220 | 282 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 708 | 30 | 4 220 | 282 | |
^ ::: ^ Počet textů | 1 708 | 111 951 | 4 220 | 1 843 528 | | ^ ::: ^ Počet textů | 1 708 | 111 951 | 4 220 | 1 843 528 | |
^ ::: ^ Počet vět | 10 095 074 | 136 606 183 | 25 872 393 | 143 195 566 | | ^ ::: ^ Počet vět | 10 095 074 | 136 606 183 | 25 872 393 | 143 195 566 | |
Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]]. | Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]]. |
| |
^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Značky v korpusu ^ Nástroj ^ | ^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Nástroj ^ |
^ angličtina | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_en&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ angličtina | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ běloruština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_be&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ běloruština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%) |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
^ bulharština | ✔ | ✔ | [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]] | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_bg&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ bulharština | ✔ | ✔ | [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]] | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_cs&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] | | ^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] | |
^ čínština | ✔ | | [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]] | [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_zh&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] | | ^ čínština | ✔ | | [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]] | [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]] | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] | |
^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_et&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ finština | ✔ | ✔ | [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%) | [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_fi&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] | | ^ finština | ✔ | ✔ | [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%) | [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%) |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] | |
^ francouzština | ✔ | ✔ | [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_fr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ francouzština | ✔ | ✔ | [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]] | |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_hr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | | ^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_is&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | | ^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | |
^ italština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_it&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ italština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]] | |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ japonština | ✔ | ✔ | [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ja&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] | | ^ japonština | ✔ | ✔ | [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]] | | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] | |
^ katalánština | ✔ | ✔ | [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ca&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ katalánština | ✔ | ✔ | [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_lv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] | | ^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] | |
^ maďarština | ✔ | | | [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_hu&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | | ^ maďarština | ✔ | | | [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | |
^ němčina | ✔ | ✔ | [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_de&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | | ^ němčina | ✔ | ✔ | [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | |
^ nizozemština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_nl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ nizozemština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] a [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_no&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]] | | ^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] a [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]] | |
^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] | | ^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] | |
^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pt&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_ru&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]] | [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | | ^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]] | [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | |
^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | | ^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ srbština | ✔ | ✔ | [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]] | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sr&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | | ^ srbština | ✔ | ✔ | [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | |
^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_es&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | |
^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_uk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
| |
<wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> | <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> |