Srovnávací seznamy

SYN2000, SYN2005, SYN2010 a SYN2015 jsou synchronní reprezentativní korpusy současné psané češtiny, z nichž každý obsahuje 100 milionů textových slov (tokens bez započtení interpunkce). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách věnovaných popisu těchto korpusů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat frekvence jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty frekvence, tedy prostého součtu všech výskytů daného slovního tvaru nebo lemmatu v korpusu, mohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizovány, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat.

K rozdílům patří odlišný způsob tokenizace (rozdělení textu na jednotlivé slovní tvary - tokens), segmentace (rozdělení na věty), novější verze lemmatizace (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu) a – v případě SYN2015 – přepracovaná klasifikace textů. Aby bylo možné jejich vliv pro srovnání korpusů eliminovat, bylo potřeba starší korpusy znovu zpracovat stejnými verzemi těchto nástrojů a také je anotovat podle stejných kritérií, jako tomu bylo v případě korpusu SYN2015. Tyto změny se nijak neprojevily v původních reprezentativních korpusech SYN2000, SYN2005 a SYN2010, které jsou přístupné pomocí rozhraní KonText jako neměnné referenční entity. Jsou však zapracovány do verze 4 korpusu SYN, který všechny tyto referenční korpusy obsahuje, ovšem s použitím jednotné tokenizace, segmentace, lemmatizace a klasifikace textů; proto jsou také veškeré dále uváděné frekvenční údaje založeny na subkorpusech SYN verze 4 odpovídajících korpusům SYN2000, SYN2005, SYN2010 a SYN2015. To však na druhou stranu znamená, že se hodnoty frekvence ve srovnávacích frekvenčních seznamech mohou lišit od frekvencí, které pro tyto referenční korpusy udává KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho celková velikost; např. korpus SYN2005 se po přetokenizování „zmenšil“ na 97,44 mil. slov.¹⁾ Rozdílnou velikost srovnávaných korpusů bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz dále) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.

Jedním z důležitých rozdílů mezi reprezentativními korpusy řady SYN je jejich odlišné složení. Vedle frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence přepočítané, a to tři parciální a jednu celkovou, která je součtem všech parciálních (až na možný rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla frekvence daného slova ve 100 milionovém srovnávacím korpusu, ve kterém by byly všechny tři hlavní textové skupiny (beletrie, oborová literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každé textové skupiny, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává frekvenci daného slova v příslušné textové skupině takového srovnávacího korpusu. Jde o podobné řešení jako v případě Frekvenčního slovníku češtiny²⁾ (FSČ), který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých textových skupinách, pokud by tyto textové skupiny byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem.

Popis údajů ve srovnávacích frekvenčních seznamech

Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci download. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu³⁾ je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).

sloupec - rank (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank)
sloupec - slovní tvar nebo lemma
sloupec - frekvence
sloupec - celková přepočítaná frekvence
sloupec - parciální přepočítaná frekvence pro beletrii
sloupec - parciální přepočítaná frekvence pro oborovou literaturu
sloupec - parciální přepočítaná frekvence pro publicistiku
sloupec - frekvenční charakteristika⁴⁾

Frekvenční charakteristika je zjednodušený kód zachycující pomocí znamének +/– typičnost/netypičnost výskytu dané položky (slovního tvaru nebo lemmatu) v konkrétní textové skupině: beletrii (B), oborové literatuře (O) nebo publicistice (P). Označení pro danou položku (např. lemma přikývnout) a konkrétní korpus (např. SYN2005) je založeno na poměru parciální přepočítané frekvence pro každou textovou skupinu a celkové přepočítané frekvence: je-li tento poměr menší než 0,05 (max. 5% podíl), je daná položka označena znaménkem minus; je-li tento poměr větší než 0,9 (min. 90% podíl), je daná položka označena znaménkem plus. Pokud se u dané položky sejde více znamének, přednost má plus.

Příklad: přepočítané frekvence lemmatu přikývnout uváděné pro korpus SYN2005 s doplněním procentního podílu jednotlivých parciálních frekvencí na celkové frekvenci do posledního sloupce následující tabulky:

celková přepočítaná frekvence	5299	100,00 %
parciální přepočítaná frekvence pro beletrii (B)	5143	97,06 %
parciální přepočítaná frekvence pro oborovou literaturu (O)	72	1,36 %
parciální přepočítaná frekvence pro publicistiku (P)	84	1,58 %

Uváděný procentní podíl pro oborovou literaturu a publicistiku je menší než 5 %, takže frekvenční charakteristika lemmatu přikývnout v SYN2005 by mohla být -O -P a signalizovat tak netypičnost výskytu lemmatu přikývnout v těchto textových skupinách. Protože je ale zároveň procentní podíl pro beletrii větší než 90 %, dostala přednost výsledná charakteristika +B označující naopak beletrii jako převažující textovou skupinu.

Poznamenejme ještě, že dvě znaménka minus implikují vždy plus ve zbývající textové skupině, takže se ve srovnávacích frekvenčních seznamech vyskytují pouze následující frekvenční charakteristiky: -B, +B, -O, +O, -P, +P. V případě, že neplatí žádná z výše uvedených podmínek, může frekvenční charakteristika zcela chybět; to indikuje výskyt daného lemmatu bez výrazných rozdílů mezi jednotlivými textovými skupinami. Tyto případy převažují pouze mírně, což dokládá velkou vnitřní variabilitu jazyka.

Způsob výpočtu přepočítaných frekvencí

Poznámka: veškeré uváděné frekvence jsou odvozeny ze subkorpusů korpusu SYN verze 4 vytvořených pomocí atributu syn, které svým složením odpovídají příslušným reprezentativním korpusům SYN2000, SYN2005, SYN2010 a SYN2015.

Označme $f$ frekvenci daného slova v příslušném korpusu a $f_{a}$, $f_{b}$, $f_{c}$ jeho parciální frekvence v hlavních textových skupinách tohoto korpusu (beletrii, oborové literatuře a publicistice) tak, že $f_{a} + f_{b} + f_{c} = f$. Označme dále $a$, $b$, $c$ podíly velikostí textových skupin a velikosti celého korpusu; tyto podíly jsou tedy pro příslušný korpus konstantní a platí $a + b + c = 1$. Celková přepočítaná frekvence daného slova je potom dána vzorcem:

$$ f_{p} = \left( \frac{f_{a}}{a} + \frac{f_{b}}{b} + \frac{f_{c}}{c} \right) \cdot \frac{k}{3}$$

kde $k$ je pro příslušný korpus normalizační konstanta, jejíž hodnotou je poměr 100 000 000 a přesné velikosti korpusu (např. pro korpus SYN2005 odvozený ze SYN verze 4 činí tato konstanta po zaokrouhlení 1,0262). Jednotlivé parciální přepočítané frekvence jsou pro každou textovou skupinu dány takto:

$$f_{pa} = \frac{f_{a}}{a} \cdot \frac{k}{3}$$

$$f_{pb} = \frac{f_{b}}{b} \cdot \frac{k}{3}$$

$$f_{pc} = \frac{f_{c}}{c} \cdot \frac{k}{3}$$

Chceme-li si ozřejmit význam vzorce pro parciální přepočítanou frekvenci, stačí si uvědomit, že první podíl (např. $f_{a}/a$) udává, jaká by byla frekvence daného slova v korpusu, který by se skládal pouze z textů určité textové skupiny. Vydělíme-li tuto frekvenci třemi, dostaneme frekvenci daného slova ve třetině takového korpusu, tedy vlastně jeho parciální frekvenci v korpusu, ve kterém jsou všechny textové skupiny zastoupeny právě jednou třetinou. Tato frekvence je konstantou $k$ již pouze normalizována vzhledem ke stomilionovému korpusu. Součtem $f_{pa} + f_{pb} + f_{pc} = f_{p}$ pak dostáváme vzorec pro výpočet celkové přepočítané frekvence.

Vezměme nyní jako příklad lemma přikývnout, jehož frekvence v beletristické části korpusu SYN2005 (vybrané jako subkorpus ze SYN verze 4) je 4 807, tedy $f_{a} = 4 807$. Protože beletrie v korpusu SYN2005 čítá 31 157 451 slovních tvarů a přesná velikost korpusu SYN2005 je 97 444 340 pozic, dostáváme $a = 31 157 451 / 97 444 340 = 0,3197$. Pokud by se tedy celý korpus SYN2005 skládal pouze z beletrie, byla by frekvence tohoto tvaru v korpusu $f_{a}/a = 15 036$. Po vynásobení této frekvence zlomkem $k/3$ dostáváme parciální přepočítanou frekvenci lemmatu přikývnout pro beletrii v korpusu SYN2005, která je 5 143.

Závěrem považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s běžnými frekvencemi. Například platí stejně jako pro běžnou frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom zhruba 97 milionů, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.

Jak citovat srovnávací frekvenční seznamy

Frekvenční seznamy uveřejněné na této stránce byly vytvořeny především s cílem umožnit široké odborné veřejnosti nový způsob práce s korpusy ČNK, který prostřednictvím webového rozhraní není možný. V případě, že je použijete ve vědecké práci, uvádějte je prosím v bibliografii následujícím způsobem:

Český národní korpus: Srovnávací frekvenční seznamy. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz

Poznámka: na stránce Abecední a retrográdní slovníky jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně.

Download

Upozornění: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou klasifikaci textů) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že nové seznamy nejsou srovnatelné s původními staženými z této stránky před její aktualizací!

Souhrn novinek ve srovnávacích frekvenčních seznamech ze záři 2016:

data také z korpusu SYN2015;
přidání frekvenčních charakteristik;
jednotné kódování češtiny v UTF-8.

Slovní tvary	Lemmata
SYN2000	SYN2000
SYN2005	SYN2005
SYN2010	SYN2010
SYN2015	SYN2015

Toto dílo podléhá licenci Creative Commons CC BY 4.0 International

— Michal Křen

¹⁾

Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané a že i ony závisejí na množství dalších faktorů.

²⁾

Čermák, F. - Křen, M. (eds): Frekvenční slovník češtiny. Nakladatelství Lidové noviny, Praha 2004.

³⁾

Přesněji řečeno jde o subkorpus korpusu SYN verze 4 vytvořený pomocí atributu syn, který svým složením odpovídá danému reprezentativnímu korpusu.

⁴⁾

Nový údaj zavedený po aktualizaci seznamů v září 2016.

Historie: • srovnavaci_seznamy