Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:intercorp:verze15 [2022/11/22 22:19] – [Korpus InterCorp verze 15] alexandrrosen | cnk:intercorp:verze15 [2022/11/22 22:28] – [Obsah korpusu] alexandrrosen |
---|
=====Korpus InterCorp verze 15===== | =====Korpus InterCorp verze 15===== |
| |
TODO!!! | |
| |
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ | ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 148 487 713 | 117 094 767 | 434 905 960 | 1 551 791 814 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 148 487 713 | 117 094 767 | 434 905 960 | 1 551 791 814 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 119 933 378 | 90 181 070 | 361 991 365 | 1 226 159 823 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 119 933 378 | 90 181 070 | 361 991 365 | 1 226 159 823 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 708 | 30 | 4 220 | 282 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 743 | 33 | 4 372 | 313 | |
^ ::: ^ Počet textů | 1 708 | 111 951 | 4 220 | 1 843 528 | | ^ ::: ^ Počet textů | 1 743 | 112 393 | 4 372 | 1 846 588 | |
^ ::: ^ Počet vět | 10 095 074 | 136 606 183 | 25 872 393 | 143 195 566 | | ^ ::: ^ Počet vět | 10 288 141 | 13 626 168 | 26 843 652 | 143 334 058 | |
^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ |
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ | ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ |
Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. | Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. |
| |
numbers: TODO! | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 362 milionů slov v jádru a 1 226 milionů slov v kolekcích. V českých textech je v jádru 120 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. |
| |
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. | |
| |
[{{:cnk:intercorp:intercorp_wordcounts_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ | [{{:cnk:intercorp:intercorp_wordcounts_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ |