AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze10 [2017/12/15 21:15] – [Korpus InterCorp verze 10] alexandrrosencnk:intercorp:verze10 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  127 413 531 |  118 069 703 |  311 809 130 |  1 551 411 225 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  127 413 531 |  118 069 703 |  311 809 130 |  1 551 411 225 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  102 609 763 |  89 841 420 |  258 807 848 |  1 225 034 182 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  102 609 763 |  89 841 420 |  258 807 848 |  1 225 034 182 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 507 |  6 |  3 232 |   106 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 507 |  6 |  3 232 |   106 |
 ^ ::: ^ Počet div |  1 507 |  111 672 |  3 232 |  1 841 341 | ^ ::: ^ Počet div |  1 507 |  111 672 |  3 232 |  1 841 341 |
 ^ ::: ^ Počet vět |  8 803 067 |  13 593 172 |  19 207 592 |  142 734 479 | ^ ::: ^ Počet vět |  8 803 067 |  13 593 172 |  19 207 592 |  142 734 479 |
Řádek 19: Řádek 19:
 InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.
  
-Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.+Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[martin.vavrin@ff.cuni.cz|Martina Vavřína]].
  
 Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné. Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.
Řádek 103: Řádek 103:
 |  uk  | ukrajinština |  8 736 |  0 |  0 |  0 |  0 |  246 |  600 |  9 583 | |  uk  | ukrajinština |  8 736 |  0 |  0 |  0 |  0 |  246 |  600 |  9 583 |
 |  vi  | vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 | |  vi  | vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 |
-| **celkem** |  |  361 418 |  30 044 |  27 189 |  428 621 |  278 178 |  539 250 |  11 593 |  1 676 293 |+| **celkem** |  |  258 808 |  25 913 |  24 874 |  409 403 |  265 255 |  488 562 |  11 027 |  1 483 842 |
 |  cs  | čeština |  102 610 |  4 131 |  2 315 |  19 218 |  12 923 |  50 688 |  566 |  192 451 | |  cs  | čeština |  102 610 |  4 131 |  2 315 |  19 218 |  12 923 |  50 688 |  566 |  192 451 |
-| **CELKEM** |  |  464 027 |  34 175 |  29 504 |  447 840 |  291 101 |  589 938 |  12 159 |  1 868 744 |+| **CELKEM** |  |  361 418 |  30 044 |  27 189 |  428 621 |  278 178 |  539 250 |  11 593 |  1 676 293 |
  
 Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Řádek 219: Řádek 219:
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
-  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi)+  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
  
 ---- ----