AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze15 [2022/11/21 13:25] – [Obsah korpusu] Alexandr Rosencnk:intercorp:verze15 [2022/11/22 22:46] (aktuální) – [Morfosyntaktická anotace] Alexandr Rosen
Řádek 1: Řádek 1:
 =====Korpus InterCorp verze 15===== =====Korpus InterCorp verze 15=====
- 
-TODO!!! 
  
 ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  145 640 866 |  116 673 038 |  418 967 492 |  1 548 425 287 +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  148 487 713 |  117 094 767 |  434 905 960 |  1 551 791 814 
-^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  117 606 467 |  89 819 772   348 771 933 |  1 223 221 264 +^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  119 933 378 |  90 181 070  361 991 365 |  1 226 159 823 
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 708 |  30 |  4 220 |   282 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 743 |  33 |  4 372 |   313 
-^ ::: ^ Počet textů |  1 708 |  111 951 |  4 220 |  1 843 528 +^ ::: ^ Počet textů |  1 743 |  112 393 |  4 372 |  1 846 588 
-^ ::: ^ Počet vět |  10 095 074 |  136 606 183 |  25 872 393 |  143 195 566 |+^ ::: ^ Počet vět |  10 288 141 |  13 626 168 |  26 843 652 |  143 334 058 |
 ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^ ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
 ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^ ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^
Řádek 39: Řádek 37:
 Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích.  Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. 
  
-Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.+Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 362 milionů slov v jádru a 1 226 milionů slov v kolekcích. V českých textech je v jádru 120 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
  
-[{{:cnk:intercorp:intercorp_wordcounts_v14.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\+[{{:cnk:intercorp:intercorp_wordcounts_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\
  
  
-[{{:cnk:intercorp:intercorp_wordcounts2_v14.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\ +[{{:cnk:intercorp:intercorp_wordcounts2_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\
- +
- +
-[{{:cnk:intercorp:intercorp_wordcounts3_v14.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\ +
- +
-==== Obsah korpusu ==== +
- +
-**Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 14 jsou k dispozici tyto kolekce: +
- +
-  * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop) +
-  * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]] +
-  * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] +
-  * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]] +
-  * překlady Bible  +
- +
-Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. +
-Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích.  +
- +
-Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 14 z ledna 2022 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.+
  
-[{{:cnk:intercorp:intercorp_wordcounts_v14.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ 
  
 +[{{:cnk:intercorp:intercorp_wordcounts3_v15.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\
  
-[{{:cnk:intercorp:intercorp_wordcounts2_v14.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\+====Velikost korpusu v tisících slov====
  
 +^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^
 +^  ar  ^ arabština |  34 |  384 |  0 |  0 |  0 |  0 |  0 |  418 |
 +^  be  ^ běloruština |  6 524 |  0 |  0 |  0 |  0 |  0 |  0 |  6 524 |
 +^  bg  ^ bulharština |  7 068 |  0 |  0 |  13 577 |  9 083 |  0 |  0 |  29 728 |
 +^  ca  ^ katalánština |  8 920 |  0 |  0 |  0 |  0 |  0 |  736 |  9 656 |
 +^  da  ^ dánština |  8 456 |  0 |  0 |  20 313 |  13 916 |  14 429 |  657 |  57 770 |
 +^  de  ^ němčina |  39 412 |  5 067 |  2 483 |  20 610 |  13 088 |  8 392 |  724 |  89 776 |
 +^  el  ^ řečtina |  0 |  0 |  0 |  23 853 |  15 404 |  23 709 |  0 |  62 966 |
 +^  en  ^ angličtina |  38 706 |  5 273 |  2 670 |  22 902 |  15 576 |  52 106 |  730 |  137 964 |
 +^  es  ^ španělština |  29 145 |  6 074 |  2 859 |  26 262 |  16 249 |  36 650 |  0 |  117 239 |
 +^  et  ^ estonština |  0 |  0 |  0 |  14 896 |  10 899 |  10 298 |  0 |  36 093 |
 +^  fi  ^ finština |  6 674 |  0 |  0 |  15 269 |  10 108 |  15 047 |  543 |  47 641 |
 +^  fr  ^ francouzština |  21 996 |  5 896 |  3 046 |  26 200 |  17 179 |  25 986 |  764 |  101 067 |
 +^  he  ^ hebrejština |  0 |  0 |  0 |  0 |  0 |  16 221 |  0 |  16 221 |
 +^  hi  ^ hindština |  409 |  0 |  0 |  0 |  0 |  0 |  0 |  409 |
 +^  hr  ^ chorvatština |  23 351 |  0 |  0 |  0 |  0 |  19 048 |  571 |  42 971 |
 +^  hs  ^ hornolužičtina |  128 |  0 |  0 |  0 |  0 |  0 |  0 |  128 |
 +^  hu  ^ maďarština |  6 922 |  8 |  0 |  17 852 |  12 198 |  21 115 |  0 |  58 095 |
 +^  is  ^ islandština |  0 |  0 |  0 |  0 |  0 |  1 581 |  0 |  1 581 |
 +^  it  ^ italština |  16 384 |  1 389 |  2 747 |  23 771 |  15 494 |  14 700 |  684 |  75 169 |
 +^  ja  ^ japonština |  3 491 |  2 |  0 |  0 |  0 |  477 |  0 |  3 970 |
 +^  lt  ^ litevština |  502 |  0 |  0 |  17 316 |  11 213 |  558 |  471 |  30 059 |
 +^  lv  ^ lotyština |  3 437 |  0 |  0 |  17 522 |  11 682 |  280 |  537 |  33 458 |
 +^  mk  ^ makedonština |  8 881 |  0 |  0 |  0 |  0 |  1 877 |  0 |  10 758 |
 +^  ms  ^ malajština |  0 |  0 |  0 |  0 |  0 |  3 521 |  0 |  3 521 |
 +^  mt  ^ maltština |  0 |  0 |  0 |  13 935 |  0 |  0 |  0 |  13 935 |
 +^  nl  ^ nizozemština |  17 769 |  812 |  2 953 |  23 416 |  15 558 |  29 373 |  717 |  90 598 |
 +^  no  ^ norština |  7 851 |  0 |  0 |  0 |  0 |  0 |  724 |  8 575 |
 +^  pl  ^ polština |  28 112 |  0 |  2 380 |  19 604 |  12 817 |  26 576 |  583 |  90 072 |
 +^  pt  ^ portugalština |  6 943 |  739 |  2 782 |  24 598 |  15 193 |  41 468 |  706 |  92 429 |
 +^  rn  ^ romština |  14 |  0 |  0 |  0 |  0 |  0 |  0 |  14 |
 +^  ro  ^ rumunština |  4 219 |  0 |  2 738 |  8 092 |  9 446 |  34 128 |  0 |  58 622 |
 +^  ru  ^ ruština |  10 549 |  4 302 |  0 |  0 |  0 |  6 887 |  565 |  22 303 |
 +^  sk  ^ slovenština |  8 596 |  0 |  0 |  18 399 |  12 727 |  5 133 |  561 |  45 416 |
 +^  sl  ^ slovinština |  4 354 |  0 |  0 |  18 515 |  12 241 |  17 035 |  0 |  52 144 |
 +^  sq  ^ albánština |  0 |  0 |  0 |  0 |  0 |  2 003 |  0 |  2 003 |
 +^  sr  ^ srbština |  12 356 |  0 |  0 |  0 |  0 |  20 727 |  0 |  33 082 |
 +^  sv  ^ švédština |  17 877 |  0 |  0 |  19 542 |  13 784 |  14 666 |  638 |  66 507 |
 +^  tr  ^ turečtina |  0 |  0 |  0 |  0 |  0 |  21 190 |  0 |  21 190 |
 +^  uk  ^ ukrajinština |  12 712 |  0 |  0 |  0 |  0 |  244 |  596 |  13 551 |
 +^  vi  ^ vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 |
 +^  zh  ^ čínština |  202 |  604 |  0 |  0 |  0 |  2 247 |  0 |  3 054 |
 +^  **celkem**  ^  |  361 991 |  30 552 |  24 658 |  406 445 |  263 854 |  489 143 |  11 507 |  1 588 151 |
 +^  cs  ^ čeština |  119 933 |  4 712 |  2 310 |  19 085 |  12 908 |  50 604 |  562 |  210 114 |
 +^  **CELKEM**  ^  |  481 925 |  35 264 |  26 968 |  425 530 |  276 763 |  539 747 |  12 069 |  1 798 266 |
  
-[{{:cnk:intercorp:intercorp_wordcounts3_v14.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\+Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
  
 ==== Morfosyntaktická anotace ==== ==== Morfosyntaktická anotace ====
Řádek 94: Řádek 119:
 ^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_de&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  | ^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_de&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
 ^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_nl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_nl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
-^ norština |  ✔  |  ✔  |  [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]]  |    |    [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_no&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://github.com/noklesta/The-Oslo-Bergen-Tagger|Oslo-Bergen Tagger]]  |+^ norština |  ✔  |  ✔  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/no/index.html#morphology|anglicky]]%%****%%)     [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_no&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
 ^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]]  | ^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pl&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]]  |
 ^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pt&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_pt&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
Řádek 103: Řádek 128:
 ^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_es&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_es&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  | ^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_sv&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  |
-^ ukrajinština |  ✔  |  ✔    [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_uk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |+^ ukrajinština |  ✔  |  ✔  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/uk/index.html#morphology|anglicky]]%%****%%)  |  [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v14_uk&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=&wlpage=1|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
  
 <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap>
Řádek 192: Řádek 217:
   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky
   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
-  * [[http://omilia.uio.no/obt/|tagger]] pro norštinu 
   * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi)    * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi) 
   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu
Řádek 217: Řádek 241:
 Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
  
-ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 14 ze 311. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https://kontext.korpus.cz/+ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 15 ze 1111. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https://kontext.korpus.cz/
  
 </WRAP> </WRAP>