AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:srovnavaci_seznamy [2016/09/14 10:57] – [Popis údajů ve srovnávacích frekvenčních seznamech] Michal Křenseznamy:srovnavaci_seznamy [2016/09/14 14:18] (aktuální) – [Download] Michal Křen
Řádek 3: Řádek 3:
 [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsou [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpusy současné [[pojmy:psany|psané]] češtiny, z nichž každý obsahuje 100 milionů textových slov ([[pojmy:token|tokens]] bez započtení interpunkce). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách věnovaných popisu těchto korpusů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat [[pojmy:frekvence|frekvence]] jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty frekvence, tedy prostého součtu všech výskytů daného [[pojmy:word|slovního tvaru]] nebo [[pojmy:lemma|lemmatu]] v korpusu, mohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizovány, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat. [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsou [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpusy současné [[pojmy:psany|psané]] češtiny, z nichž každý obsahuje 100 milionů textových slov ([[pojmy:token|tokens]] bez započtení interpunkce). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách věnovaných popisu těchto korpusů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat [[pojmy:frekvence|frekvence]] jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty frekvence, tedy prostého součtu všech výskytů daného [[pojmy:word|slovního tvaru]] nebo [[pojmy:lemma|lemmatu]] v korpusu, mohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizovány, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat.
  
-K rozdílům patří odlišný způsob [[pojmy:token|tokenizace]] (rozdělení textu na jednotlivé slovní tvary - [[pojmy:token|tokens]]), [[pojmy:segmentace|segmentace]] (rozdělení na věty), novější verze [[pojmy:lemma#lemmatizace]] (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu) a -- v případě SYN2015 -- přepracovaná [[cnk:klasifikace_textu_syn2015|klasifikace textů]]. Aby bylo možné jejich vliv pro srovnání korpusů eliminovat, bylo potřeba starší korpusy znovu zpracovat stejnými verzemi těchto nástrojů a také je anotovat podle stejných kritérií, jako tomu bylo v případě korpusu SYN2015. Tyto změny se nijak neprojevily v původních reprezentativních korpusech SYN2000, SYN2005 a SYN2010, které jsou přístupné pomocí [[manualy:kontext:index|rozhraní KonText]] jako neměnné [[pojmy:referencni|referenční]] entity. Jsou však zapracovány do [[cnk:syn:verze4|verze 4]] korpusu [[cnk:syn|SYN]], který všechny referenční korpusy obsahuje, ovšem s použitím jednotné tokenizace, segmentace, lemmatizace a klasifikace textů; proto jsou také veškeré dále uváděné frekvenční údaje založeny na subkorpusech SYN verze 4 odpovídajících korpusům SYN2000, SYN2005, SYN2010 a SYN2015. To však na druhou stranu znamená, že se hodnoty frekvence ve srovnávacích frekvenčních seznamech mohou lišit od frekvencí, které pro referenční korpusy udává KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho celková velikost; např. korpus SYN2005 se po přetokenizování "zmenšil" na 97,44 mil. slov.((Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané a že i ony závisejí na množství dalších faktorů.)) Rozdílnou velikost srovnávaných korpusů bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz dále) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.+K rozdílům patří odlišný způsob [[pojmy:token|tokenizace]] (rozdělení textu na jednotlivé slovní tvary - [[pojmy:token|tokens]]), [[pojmy:segmentace|segmentace]] (rozdělení na věty), novější verze [[pojmy:lemma#lemmatizace]] (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu) a -- v případě SYN2015 -- přepracovaná [[cnk:klasifikace_textu_syn2015|klasifikace textů]]. Aby bylo možné jejich vliv pro srovnání korpusů eliminovat, bylo potřeba starší korpusy znovu zpracovat stejnými verzemi těchto nástrojů a také je anotovat podle stejných kritérií, jako tomu bylo v případě korpusu SYN2015. Tyto změny se nijak neprojevily v původních reprezentativních korpusech SYN2000, SYN2005 a SYN2010, které jsou přístupné pomocí [[manualy:kontext:index|rozhraní KonText]] jako neměnné [[pojmy:referencni|referenční]] entity. Jsou však zapracovány do [[cnk:syn:verze4|verze 4]] korpusu [[cnk:syn|SYN]], který všechny tyto referenční korpusy obsahuje, ovšem s použitím jednotné tokenizace, segmentace, lemmatizace a klasifikace textů; proto jsou také veškeré dále uváděné frekvenční údaje založeny na subkorpusech SYN verze 4 [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|odpovídajících]] korpusům SYN2000, SYN2005, SYN2010 a SYN2015. To však na druhou stranu znamená, že se hodnoty frekvence ve srovnávacích frekvenčních seznamech mohou lišit od frekvencí, které pro tyto referenční korpusy udává KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho celková velikost; např. korpus SYN2005 se po přetokenizování "zmenšil" na 97,44 mil. slov.((Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané a že i ony závisejí na množství dalších faktorů.)) Rozdílnou velikost srovnávaných korpusů bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz dále) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.
  
 Jedním z důležitých rozdílů mezi [[pojmy:reprezentativnost|reprezentativními]] korpusy řady SYN je jejich odlišné složení. Vedle frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence //přepočítané//, a to tři //parciální// a jednu //celkovou//, která je součtem všech parciálních (až na možný rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla frekvence daného slova ve 100 milionovém //srovnávacím korpusu//, ve kterém by byly všechny tři hlavní [[pojmy:txtype_group|textové skupiny]] (beletrie, oborová literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každé textové skupiny, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává frekvenci daného slova v příslušné textové skupině takového srovnávacího korpusu. Jde o podobné řešení jako v případě //Frekvenčního slovníku češtiny//((Čermák, F. - Křen, M. (eds): //Frekvenční slovník češtiny//. Nakladatelství Lidové noviny, Praha 2004.)) (FSČ), který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých textových skupinách, pokud by tyto textové skupiny byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem. Jedním z důležitých rozdílů mezi [[pojmy:reprezentativnost|reprezentativními]] korpusy řady SYN je jejich odlišné složení. Vedle frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence //přepočítané//, a to tři //parciální// a jednu //celkovou//, která je součtem všech parciálních (až na možný rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla frekvence daného slova ve 100 milionovém //srovnávacím korpusu//, ve kterém by byly všechny tři hlavní [[pojmy:txtype_group|textové skupiny]] (beletrie, oborová literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každé textové skupiny, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává frekvenci daného slova v příslušné textové skupině takového srovnávacího korpusu. Jde o podobné řešení jako v případě //Frekvenčního slovníku češtiny//((Čermák, F. - Křen, M. (eds): //Frekvenční slovník češtiny//. Nakladatelství Lidové noviny, Praha 2004.)) (FSČ), který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých textových skupinách, pokud by tyto textové skupiny byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem.
 ===== Popis údajů ve srovnávacích frekvenčních seznamech ===== ===== Popis údajů ve srovnávacích frekvenčních seznamech =====
  
-Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|příslušnému korpusu odpovídá]].)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).+Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|odpovídá]] danému reprezentativnímu korpusu.)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).
  
   - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank)    - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank) 
Řádek 34: Řádek 34:
 ====== Způsob výpočtu přepočítaných frekvencí ====== ====== Způsob výpočtu přepočítaných frekvencí ======
  
-Poznámka: veškeré uváděné frekvence jsou odvozeny korpusu [[cnk:syn:verze4|SYN verze 4]] a jeho subkorpusů vytvořených pomocí atributu ''syn'', které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] příslušným reprezentativním korpusům [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]].+**Poznámka**: veškeré uváděné frekvence jsou odvozeny ze subkorpusů korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořených pomocí atributu ''syn'', které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] příslušným reprezentativním korpusům [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]].
  
 Označme $f$ frekvenci daného slova v příslušném korpusu a $f_{a}$, $f_{b}$, $f_{c}$ jeho parciální frekvence v hlavních textových skupinách tohoto korpusu (beletrii, oborové literatuře a publicistice) tak, že $f_{a} + f_{b} + f_{c} = f$. Označme dále $a$, $b$, $c$ podíly velikostí textových skupin a velikosti celého korpusu; tyto podíly jsou tedy pro příslušný korpus konstantní a platí $a + b + c = 1$. Celková přepočítaná frekvence daného slova je potom dána vzorcem: Označme $f$ frekvenci daného slova v příslušném korpusu a $f_{a}$, $f_{b}$, $f_{c}$ jeho parciální frekvence v hlavních textových skupinách tohoto korpusu (beletrii, oborové literatuře a publicistice) tak, že $f_{a} + f_{b} + f_{c} = f$. Označme dále $a$, $b$, $c$ podíly velikostí textových skupin a velikosti celého korpusu; tyto podíly jsou tedy pro příslušný korpus konstantní a platí $a + b + c = 1$. Celková přepočítaná frekvence daného slova je potom dána vzorcem:
Řádek 40: Řádek 40:
 $$ f_{p} = \left( \frac{f_{a}}{a} + \frac{f_{b}}{b} + \frac{f_{c}}{c} \right) \cdot \frac{k}{3}$$ $$ f_{p} = \left( \frac{f_{a}}{a} + \frac{f_{b}}{b} + \frac{f_{c}}{c} \right) \cdot \frac{k}{3}$$
  
-kde $k$ je pro příslušný korpus normalizační konstanta, jejíž hodnotou je poměr 100 000 000 a přesné velikosti korpusu (např. pro korpus SYN2005 činí tato konstanta po zaokrouhlení 1,0262). Jednotlivé parciální přepočítané frekvence jsou pro každou textovou skupinu dány takto:+kde $k$ je pro příslušný korpus normalizační konstanta, jejíž hodnotou je poměr 100 000 000 a přesné velikosti korpusu (např. pro korpus SYN2005 odvozený ze SYN verze 4 činí tato konstanta po zaokrouhlení 1,0262). Jednotlivé parciální přepočítané frekvence jsou pro každou textovou skupinu dány takto:
  
 $$f_{pa} = \frac{f_{a}}{a} \cdot \frac{k}{3}$$ $$f_{pa} = \frac{f_{a}}{a} \cdot \frac{k}{3}$$
Řádek 52: Řádek 52:
 Vezměme nyní jako příklad lemma //přikývnout//, jehož frekvence v beletristické části korpusu SYN2005 (vybrané jako subkorpus ze SYN verze 4) je 4 807, tedy $f_{a} = 4 807$. Protože beletrie v korpusu SYN2005 čítá 31 157 451 slovních tvarů a přesná velikost korpusu SYN2005 je 97 444 340 pozic, dostáváme $a = 31 157 451 / 97 444 340 = 0,3197$. Pokud by se tedy celý korpus SYN2005 skládal pouze z beletrie, byla by frekvence tohoto tvaru v korpusu $f_{a}/a = 15 036$. Po vynásobení této frekvence zlomkem $k/3$ dostáváme parciální přepočítanou frekvenci lemmatu //přikývnout// pro beletrii v korpusu SYN2005, která je 5 143. Vezměme nyní jako příklad lemma //přikývnout//, jehož frekvence v beletristické části korpusu SYN2005 (vybrané jako subkorpus ze SYN verze 4) je 4 807, tedy $f_{a} = 4 807$. Protože beletrie v korpusu SYN2005 čítá 31 157 451 slovních tvarů a přesná velikost korpusu SYN2005 je 97 444 340 pozic, dostáváme $a = 31 157 451 / 97 444 340 = 0,3197$. Pokud by se tedy celý korpus SYN2005 skládal pouze z beletrie, byla by frekvence tohoto tvaru v korpusu $f_{a}/a = 15 036$. Po vynásobení této frekvence zlomkem $k/3$ dostáváme parciální přepočítanou frekvenci lemmatu //přikývnout// pro beletrii v korpusu SYN2005, která je 5 143.
  
-Závěrem považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s frekvencemi absolutními. Například platí stejně jako pro absolutní frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom zhruba 97 milionů, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.+Závěrem považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s běžnými frekvencemi. Například platí stejně jako pro běžnou frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom zhruba 97 milionů, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.
  
 ===== Jak citovat srovnávací frekvenční seznamy ===== ===== Jak citovat srovnávací frekvenční seznamy =====
Řádek 59: Řádek 59:
  
 Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz
 +
 +Poznámka: na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně.
  
 ===== Download ===== ===== Download =====
  
-**Důležité upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!+**Upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!
  
-Souhrn novinek verze aktualizované v záři 2016: +Souhrn novinek ve srovnávacích frekvenčních seznamech ze záři 2016: 
-  * přidání dat z korpusu SYN2015;+  * data také z korpusu SYN2015;
   * přidání frekvenčních charakteristik;   * přidání frekvenčních charakteristik;
   * jednotné kódování češtiny v UTF-8.   * jednotné kódování češtiny v UTF-8.
  
-Systém  ^  Slovní tvary   Lemmata ^ +^ Slovní tvary ^ Lemmata ^ 
-^ Windows   {{:seznamy:syn2000_word.zip|SYN2000}}   {{:seznamy:syn2000_lemma.zip|SYN2000}}  +| {{:seznamy:syn2000_word_utf8.zip|SYN2000}} | {{:seznamy:syn2000_lemma_utf8.zip|SYN2000}} | 
-^ :::       {{:seznamy:syn2005_word.zip|SYN2005}}   {{:seznamy:syn2005_lemma.zip|SYN2005}}  +| {{:seznamy:syn2005_word_utf8.zip|SYN2005}} | {{:seznamy:syn2005_lemma_utf8.zip|SYN2005}} | 
-^ :::       {{:seznamy:syn2010_word.zip|SYN2010}}   {{:seznamy:syn2010_lemma.zip|SYN2010}}  |  +| {{:seznamy:syn2010_word_utf8.zip|SYN2010}} | {{:seznamy:syn2010_lemma_utf8.zip|SYN2010}} | 
-^ Linux     {{:seznamy:syn2000_word.gz|SYN2000}}   {{:seznamy:syn2000_lemma.gz|SYN2000}} +| {{:seznamy:syn2015_word_utf8.zip|SYN2015}} | {{:seznamy:syn2015_lemma_utf8.zip|SYN2015}} |
-^ :::      |  {{:seznamy:syn2005_word.gz|SYN2005}}  |  {{:seznamy:syn2005_lemma.gz|SYN2005}} +
-^ :::      |  {{:seznamy:syn2010_word.gz|SYN2010}}  |  {{:seznamy:syn2010_lemma.gz|SYN2010}}  |+
  
 Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]] Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]]
  
 {{https://i.creativecommons.org/l/by/4.0/88x31.png}} {{https://i.creativecommons.org/l/by/4.0/88x31.png}}
- 
-Na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně. 
  
  --- //Michal Křen//  --- //Michal Křen//