AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze9 [2017/08/22 13:32] – nová čísla zaokrouhlená do tisíce Adrian Zasinacnk:intercorp:verze9 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 9: Řádek 9:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  120 443 181 |  117 981 673 |  278 445 878 |  1 556 840 965 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  120 443 181 |  117 981 673 |  278 445 878 |  1 556 840 965 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  96 956 714 |  89 645 545 |  231 501 606 |  1 228 896 294 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  96 956 714 |  89 645 545 |  231 501 606 |  1 228 896 294 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1430 |  5 |  2 934 |  89 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1430 |  5 |  2 934 |  89 |
 ^ ::: ^ Počet div |  1 430 |  111 263 |  2 934 |  1 849 184 | ^ ::: ^ Počet div |  1 430 |  111 263 |  2 934 |  1 849 184 |
 ^ ::: ^ Počet vět |  8 308 814 |  13 588 082 |  17 210 601 |  143 478 514 | ^ ::: ^ Počet vět |  8 308 814 |  13 588 082 |  17 210 601 |  143 478 514 |
Řádek 67: Řádek 67:
 ====Velikost korpusu v tisících slov==== ====Velikost korpusu v tisících slov====
  
-^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ +^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Celkem ^ 
-|  ar  | arabština |  34 |  0 |  0 |  0 |  0 |  0 |  0 |  34 | +|  ar  | arabština |  34 |  0 |  0 |  0 |  0 |  0 |  34 | 
-|  be  | běloruština |  3 967 |  0 |  0 |  0 |  0 |  0 |  0 |  3 967 +|  be  | běloruština |  3 025 |  0 |  0 |  0 |  0 |  0 |  3 025 
-|  bg  | bulharština |  6 465 |  0 |  0 |  13 572 |  9 067 |  0 |  0 |  29 103 +|  bg  | bulharština |  6 007 |  0 |  0 |  13 816 |  9 083 |  0 |  28 907 
-|  ca  | katalánština |  4 645 |  0 |  0 |  0 |  0 |  0 |  736 |  5 381 +|  ca  | katalánština |  4 632 |  0 |  0 |  0 |  0 |  0 |  4 632 
-|  da  | dánština |  4 548 |  0 |  0 |  20 313 |  13 916 |  14 430 |  657 |  53 581 | +|  da  | dánština |  3 556 |  0 |  0 |  21 679 |  13 915 |  14 429 |  53 581 | 
-|  de  | němčina |  33 053 |  4 457 |  2 483 |  20 610 |  13 089 |  8 393 |  724 |  82 809 +|  de  | němčina |  31 168 |  3 725 |  2 482 |  21 723 |  13 089 |  8 366 |  80 556 
-|  el  | řečtina |  0 |  0 |  0 |  23 854 |  15 404 |  23 715 |  0 |  62 972 +|  el  | řečtina |  0 |  0 |  0 |  25 069 |  15 403 |  23 714 |  64 187 
-|  en  | angličtina |  24 567 |  4 604 |  2 670 |  22 902 |  15 576 |  52 123 |  730 |  123 172 +|  en  | angličtina |  21 208 |  3 818 |  2 670 |  24 207 |  15 580 |  52 101 |  119 586 
-|  es  | španělština |  21 036 |  5 322 |  2 859 |  26 262 |  16 249 |  36 650 |  0 |  108 377 +|  es  | španělština |  19 310 |  4 324 |  2 816 |  27 001 |  15 885 |  36 378 |  105 716 
-|  et  | estonština |  0 |  0 |  0 |  14 896 |  10 899 |  10 298 |  0 |  36 093 +|  et  | estonština |  0 |  0 |  0 |  15 962 |  10 899 |  10 296 |  37 158 
-|  fi  | finština |  4 074 |  0 |  0 |  15 489 |  10 175 |  15 098 |  544 |  45 380 +|  fi  | finština |  3 645 |  0 |  0 |  16 455 |  10 175 |  15 097 |  45 373 
-|  fr  | francouzština |  15 073 |  5 391 |  3 046 |  26 200 |  17 179 |  25 991 |  764 |  93 644 +|  fr  | francouzština |  12 406 |  4 393 |  2 928 |  27 351 |  17 178 |  25 961 |  90 219 
-|  he  | hebrejština |  0 |  0 |  0 |  0 |  0 |  16 221 |  0 |  16 221 | +|  he  | hebrejština |  0 |  0 |  0 |  0 |  0 |  16 221 |  16 221 | 
-|  hi  | hindština |  409 |  0 |  0 |  0 |  0 |  0 |  0 |  409 +|  hi  | hindština |  408 |  0 |  0 |  0 |  0 |  0 |  408 
-|  hr  | chorvatština |  20 146 |  0 |  0 |  0 |  0 |  19 049 |  571 |  39 767 +|  hr  | chorvatština |  19 980 |  0 |  0 |  0 |  0 |  19 042 |  39 023 
-|  hu  | maďarština |  5 626 |  0 |  0 |  17 853 |  12 198 |  21 115 |  0 |  56 791 +|  hu  | maďarština |  5 818 |  0 |  0 |  19 176 |  12 306 |  21 239 |  58 541 
-|  is  | islandština |  0 |  0 |  0 |  0 |  0 |  1 585 |  0 |  1 585 +|  is  | islandština |  0 |  0 |  0 |  0 |  0 |  1 584 |  1 584 
-|  it  | italština |  10 784 |  1 141 |  2 747 |  23 771 |  15 494 |  14 701 |  684 |  69 321 +|  it  | italština |  8 694 |  651 |  2 707 |  24 849 |  15 489 |  14 653 |  67 046 
-|  ja  | japonština |  0 |  0 |  0 |  0 |  0 |  113 |  0 |  113 | +|  ja  | japonština |  0 |  0 |  0 |  0 |  0 |  113 |  113 | 
-|  lt  | litevština |  358 |  0 |  0 |  17 316 |  11 213 |  558 |  471 |  29 916 +|  lt  | litevština |  358 |  0 |  0 |  18 392 |  11 212 |  557 |  30 521 
-|  lv  | lotyština |  2 025 |  0 |  0 |  17 533 |  11 682 |  280 |  0 |  31 521 +|  lv  | lotyština |  1 666 |  0 |  0 |  24 667 |  13 895 |  381 |  40 609 
-|  mk  | makedonština |  5 939 |  0 |  0 |  0 |  0 |  1 877 |  0 |  7 816 +|  mk  | makedonština |  4 663 |  0 |  0 |  0 |  0 |  1 877 |  6 540 
-|  ms  | malajština |  0 |  0 |  0 |  0 |  0 |  3 521 |  0 |  3 521 +|  ms  | malajština |  0 |  0 |  0 |  0 |  0 |  3 520 |  3 520 
-|  mt  | maltština |  0 |  0 |  0 |  13 953 |  0 |  0 |  0 |  13 953 +|  mt  | maltština |  0 |  0 |  0 |  14 133 |  0 |  0 |  14 133 
-|  nl  | nizozemština |  13 454 |  711 |  2 953 |  23 416 |  15 558 |  29 373 |  717 |  86 181 +|  nl  | nizozemština |  11 444 |  314 |  2 955 |  24 746 |  15 563 |  29 362 |  84 386 
-|  no  | norština |  5 305 |  0 |  0 |  0 |  0 |  0 |  722 |  6 026 +|  no  | norština |  4 965 |  0 |  0 |  0 |  0 |  0 |  4 965 
-|  pl  | polština |  23 238 |  0 |  2 378 |  19 594 |  12 811 |  26 572 |  583 |  85 176 +|  pl  | polština |  21 433 |  0 |  2 378 |  20 627 |  12 811 |  26 572 |  83 822 
-|  pt  | portugalština |  3 473 |  520 |  3 000 |  27 301 |  16 485 |  43 392 |  760 |  94 930 +|  pt  | portugalština |  2 605 |  369 |  2 999 |  28 602 |  16 484 |  43 391 |  94 454 
-|  rn  | romština |  14 |  0 |  0 |  0 |  0 |  0 |  0 |  14 +|  rn  | romština |  |  0 |  0 |  0 |  0 |  0 |  
-|  ro  | rumunština |  3 888 |  0 |  2 738 |  8 092 |  9 446 |  34 129 |  0 |  58 293 +|  ro  | rumunština |  3 432 |  0 |  2 737 |  8 199 |  9 446 |  34 128 |  57 944 
-|  ru  | ruština |  5 978 |  3 767 |  0 |  0 |  0 |  6 887 |  565 |  17 197 +|  ru  | ruština |  4 788 |  3 174 |  0 |  0 |  0 |  6 885 |  14 848 
-|  sk  | slovenština |  8 545 |  0 |  0 |  18 400 |  12 734 |  5 134 |  561 |  45 375 +|  sk  | slovenština |  8 066 |  0 |  0 |  19 222 |  12 734 |  5 134 |  45 158 
-|  sl  | slovinština |  2 952 |  0 |  0 |  18 485 |  12 241 |  17 025 |  0 |  50 702 +|  sl  | slovinština |  2 057 |  0 |  0 |  19 645 |  12 240 |  17 024 |  50 968 
-|  sq  | albánština |  0 |  0 |  0 |  0 |  0 |  2 004 |  0 |  2 004 +|  sq  | albánština |  0 |  0 |  0 |  0 |  0 |  2 003 |  2 003 
-|  sr  | srbština |  10 207 |  0 |  0 |  0 |  0 |  20 728 |  0 |  30 934 +|  sr  | srbština |  9 886 |  0 |  0 |  0 |  0 |  20 720 |  30 607 
-|  sv  | švédština |  10 269 |  0 |  0 |  19 609 |  13 840 |  14 694 |  638 |  59 051 +|  sv  | švédština |  8 959 |  0 |  0 |  20 585 |  13 840 |  14 693 |  58 079 
-|  tr  | turečtina |  0 |  0 |  0 |  0 |  0 |  21 191 |  0 |  21 191 +|  tr  | turečtina |  0 |  0 |  0 |  0 |  0 |  21 190 |  21 190 
-|  uk  | ukrajinština |  8 736 |  0 |  0 |  0 |  0 |  246 |  600 |  9 583 +|  uk  | ukrajinština |  7 597 |  0 |  0 |  0 |  0 |  246 |  7 843 
-|  vi  | vietnamština |  0 |  0 |  0 |  0 |  0 |  1 474 |  0 |  1 474 +|  vi  | vietnamština |  0 |  0 |  0 |  0 |  0 |  1 473 |  1 473 
-| **celkem** |  |  361 418 |  30 044 |  27 189 |  428 621 |  278 178 |  539 250 |  11 593 |  1 676 293 +| **celkem** |  |  231 501 |  20 769 |  24 676 |  430 160 |  265 022 |  488 266 |  1 460 397 
-|  cs  | čeština |  102 610 |  4 131 |  2 315 |  19 218 |  12 923 |  50 688 |  566 |  192 451 +|  cs  | čeština |  96 956 |  3 416 |  2 315 |  20 303 |  12 922 |  50 688 |  186 602 
-| **CELKEM** |  |  464 027 |  34 175 |  29 504 |  447 840 |  291 101 |  589 938 |  12 159 |  1 868 744 |+| **CELKEM** |  |  328 458 |  24 186 |  26 991 |  450 463 |  277 945 |  538 954 |  1 647 000 |
  
 Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Řádek 228: Řádek 228:
   * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi   * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi
   * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]   * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]
-  * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|Presseurop/VoxEurop]]+  * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]]
   * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]   * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]
   * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]   * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]
Řádek 259: Řádek 259:
   * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi)   * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi)
   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu
-  * [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi)+  * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi)
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
-  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi)+  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
  
 ---- ----