Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:intercorp:verze16 [2023/10/11 16:04] – [Počet textů v jádru korpusu] alexandrrosen
+++ cnk:intercorp:verze16 [2023/10/11 16:08] – [Obsah korpusu] alexandrrosen
@@ Řádek 37: / Řádek 37: @@
 Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích.
-Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 16 z roku 2023 činí v zarovnaných cizojazyčných textech 385 milionů slov v jádru a 4 506 milionů slov v kolekcích. V českých textech je v jádru 125 a v kolekcích 273 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
+Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 16 z roku 2023 činí v zarovnaných cizojazyčných textech 387 milionů slov v jádru a 4 506 milionů slov v kolekcích. V českých textech je v jádru 125 a v kolekcích 273 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
 [{{:cnk:intercorp:intercorp_wordcounts_v16.png?1000|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\

Historie: • verze11 • wag • verze14 • slovesa_castecna_paradigmata_infinitivy_sublemmata • zobrazeni • schola_vyhledavani_a_subkorpusy • obc • start • kh-noviny • klasifikace_textu_syn2015

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence