AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze10 [2017/12/01 14:21] – [Morfosyntaktická anotace] alexandrrosencnk:intercorp:verze10 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek
Řádek 1: Řádek 1:
 =====Korpus InterCorp verze 10===== =====Korpus InterCorp verze 10=====
  
- 
-<WRAP right> 
 ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  127 413 531 |  118 069 703 |  311 809 130 |  1 551 411 225 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  127 413 531 |  118 069 703 |  311 809 130 |  1 551 411 225 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  102 609 763 |  89 841 420 |  258 807 848 |  1 225 034 182 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  102 609 763 |  89 841 420 |  258 807 848 |  1 225 034 182 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 507 |  6 |  3 232 |   106 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 507 |  6 |  3 232 |   106 |
 ^ ::: ^ Počet div |  1 507 |  111 672 |  3 232 |  1 841 341 | ^ ::: ^ Počet div |  1 507 |  111 672 |  3 232 |  1 841 341 |
 ^ ::: ^ Počet vět |  8 803 067 |  13 593 172 |  19 207 592 |  142 734 479 | ^ ::: ^ Počet vět |  8 803 067 |  13 593 172 |  19 207 592 |  142 734 479 |
Řádek 15: Řádek 13:
 ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  23  ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  23  ^^^^
 ^ ::: ^ [[pojmy:lemma|lemmat]] jazyků |  22  ^^^^ ^ ::: ^ [[pojmy:lemma|lemmat]] jazyků |  22  ^^^^
-</WRAP> 
- 
 ====Přístup k textům==== ====Přístup k textům====
  
Řádek 23: Řádek 19:
 InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.
  
-Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.+Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[martin.vavrin@ff.cuni.cz|Martina Vavřína]].
  
 Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné. Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.
Řádek 107: Řádek 103:
 |  uk  | ukrajinština |  8 736 |  0 |  0 |  0 |  0 |  246 |  600 |  9 583 | |  uk  | ukrajinština |  8 736 |  0 |  0 |  0 |  0 |  246 |  600 |  9 583 |
 |  vi  | vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 | |  vi  | vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 |
-| **celkem** |  |  361 418 |  30 044 |  27 189 |  428 621 |  278 178 |  539 250 |  11 593 |  1 676 293 |+| **celkem** |  |  258 808 |  25 913 |  24 874 |  409 403 |  265 255 |  488 562 |  11 027 |  1 483 842 |
 |  cs  | čeština |  102 610 |  4 131 |  2 315 |  19 218 |  12 923 |  50 688 |  566 |  192 451 | |  cs  | čeština |  102 610 |  4 131 |  2 315 |  19 218 |  12 923 |  50 688 |  566 |  192 451 |
-| **CELKEM** |  |  464 027 |  34 175 |  29 504 |  447 840 |  291 101 |  589 938 |  12 159 |  1 868 744 |+| **CELKEM** |  |  361 418 |  30 044 |  27 189 |  428 621 |  278 178 |  539 250 |  11 593 |  1 676 293 |
  
 Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Řádek 120: Řádek 116:
 ^ angličtina |  ✔    ✔  |  [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ angličtina |  ✔    ✔  |  [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ bulharština |  ✔  |   ✔        [[http://www.bultreebank.org/TechRep/BTB-TR03.pdf|anglicky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ bulharština |  ✔  |   ✔        [[http://www.bultreebank.org/TechRep/BTB-TR03.pdf|anglicky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
-^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]],[[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[http://ufal.mff.cuni.cz/morce/index.php|Morče]]  |+^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[http://ufal.mff.cuni.cz/morce/index.php|Morče]]  |
 ^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
-^ finština |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/finntreebank|anglicky]]  |   [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%)  |   [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]]  |+^ finština |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%)    [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%)  |   [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]]  |
 ^ francouzština |  ✔  |  ✔  |  [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ francouzština |  ✔  |  ✔  |  [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ chorvatština |  ✔  |  ✔  |   [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]]  |      [[https://github.com/uzh/reldi|ReLDI Tagger]]   | ^ chorvatština |  ✔  |  ✔  |   [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]]  |      [[https://github.com/uzh/reldi|ReLDI Tagger]]   |
Řádek 132: Řádek 128:
 ^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  | ^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
 ^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |  [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |  [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
-^ norština |  ✔  |  ✔  |  [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]],[[http://tekstlab.uio.no/obt-ny/index.html|norsky]]  |      [[https://visl.sdu.dk/remoting.html|VISL]]  |+^ norština |  ✔  |  ✔  |  [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]]  |      [[https://visl.sdu.dk/remoting.html|VISL]]  |
 ^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]]  | ^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]]  |
 ^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
Řádek 223: Řádek 219:
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
-  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi)+  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
  
 ---- ----