Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:intercorp:verze15 [2022/11/22 22:25] – [Korpus InterCorp verze 15] alexandrrosen
+++ cnk:intercorp:verze15 [2022/11/22 22:32] – [Poděkování] alexandrrosen
@@ Řádek 1: / Řádek 1: @@
 =====Korpus InterCorp verze 15=====
-TODO!!!
 ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
@@ Řádek 39: / Řádek 37: @@
 Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích.
-numbers: TODO!
+Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 362 milionů slov v jádru a 1 226 milionů slov v kolekcích. V českých textech je v jádru 120 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
-Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
 [{{:cnk:intercorp:intercorp_wordcounts_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\
@@ Řádek 221: / Řádek 217: @@
   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky
   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
-  * [[http://omilia.uio.no/obt/|tagger]] pro norštinu
   * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi)
   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence