AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
cnk:intercorp:verze14 [2022/02/01 10:52] – [Korpus InterCorp verze 14] n/a adrianzasinacnk:intercorp:verze14 [2022/08/29 18:03] jankrivan
Řádek 5: Řádek 5:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  145 640 866 |  116 673 038 |  418 967 492 |  1 548 425 287 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  145 640 866 |  116 673 038 |  418 967 492 |  1 548 425 287 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  117 606 467 |  89 819 772 |   348 771 933 |  1 223 221 264 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  117 606 467 |  89 819 772 |   348 771 933 |  1 223 221 264 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 708 |  30 |  4 220 |   282 | +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 708 |  30 |  4 220 |   282 | 
-^ ::: ^ Počet textů |  n/a |  n/a |  n/a |  n/a +^ ::: ^ Počet textů |  1 708 |  111 951 |  4 220 |  1 843 528 
-^ ::: ^ Počet vět |  n/a |  n/a |  n/a |  n/a |+^ ::: ^ Počet vět |  10 095 074 |  136 606 183 |  25 872 393 |  143 195 566 |
 ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^ ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
 ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^ ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^
Řádek 38: Řádek 38:
 Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích.  Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. 
  
-Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 14 z ledna 2021 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.+Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 14 z ledna 2022 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
  
 [{{:cnk:intercorp:intercorp_wordcounts_v14.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ [{{:cnk:intercorp:intercorp_wordcounts_v14.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\
Řádek 66: Řádek 66:
 ^  hi  ^ hindština |  409 |  0 |  0 |  0 |  0 |  0 |  0 |  409 | ^  hi  ^ hindština |  409 |  0 |  0 |  0 |  0 |  0 |  0 |  409 |
 ^  hr  ^ chorvatština |  22 736 |  0 |  0 |  0 |  0 |  19 048 |  571 |  42 356 | ^  hr  ^ chorvatština |  22 736 |  0 |  0 |  0 |  0 |  19 048 |  571 |  42 356 |
-^  hu  maďarština |  110 |  0 |  0 |  0 |  0 |  0 |  0 |  110 | +^  hs  hornolužičtina |  110 |  0 |  0 |  0 |  0 |  0 |  0 |  110 | 
-^  hs  hornolužičtina |  6 444 |  0 |  0 |  17 852 |  12 198 |  21 115 |  0 |  57 609 |+^  hu  maďarština |  6 444 |  0 |  0 |  17 852 |  12 198 |  21 115 |  0 |  57 609 |
 ^  is  ^ islandština |  0 |  0 |  0 |  0 |  0 |  1 581 |  0 |  1 581 | ^  is  ^ islandština |  0 |  0 |  0 |  0 |  0 |  1 581 |  0 |  1 581 |
 ^  it  ^ italština |  15 741 |  1 252 |  2 747 |  23 771 |  15 494 |  14 700 |  684 |  74 389 | ^  it  ^ italština |  15 741 |  1 252 |  2 747 |  23 771 |  15 494 |  14 700 |  684 |  74 389 |
Řádek 242: Řádek 242:
 Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
  
-ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 14 ze 17. 1. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https://kontext.korpus.cz/+ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 14 ze 31. 1. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https://kontext.korpus.cz/
  
 </WRAP> </WRAP>