AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:srovnavaci_seznamy [2016/09/12 16:13] – [Download] michalkrenseznamy:srovnavaci_seznamy [2016/09/14 14:18] (aktuální) – [Download] michalkren
Řádek 1: Řádek 1:
 ====== Srovnávací seznamy ====== ====== Srovnávací seznamy ======
  
-[[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsou [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpusy současné [[pojmy:psany|psané]] češtiny, z nichž každý obsahuje 100 milionů textových slov ([[pojmy:token|tokens]] bez započtení interpunkce). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách věnovaných popisu těchto korpusů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat [[pojmy:frekvence|frekvence]] jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty absolutní frekvence (tedy prostý součet všech výskytů daného [[pojmy:word|slovního tvaru]] nebo [[pojmy:lemma|lemmatu]] v korpusumohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě absolutní frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizovány, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat.+[[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsou [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpusy současné [[pojmy:psany|psané]] češtiny, z nichž každý obsahuje 100 milionů textových slov ([[pojmy:token|tokens]] bez započtení interpunkce). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách věnovaných popisu těchto korpusů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat [[pojmy:frekvence|frekvence]] jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty frekvencetedy prostého součtu všech výskytů daného [[pojmy:word|slovního tvaru]] nebo [[pojmy:lemma|lemmatu]] v korpusumohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizovány, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat.
  
-K rozdílům patří odlišný způsob [[pojmy:token|tokenizace]] (rozdělení korpusu na jednotlivé slovní tvary - [[pojmy:token|tokens]]), [[pojmy:segmentace|segmentace]] (rozdělení korpusu na věty), novější verze [[pojmy:lemma#lemmatizace]] (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu) a (zejména v případě SYN2015přepracovaná [[cnk:klasifikace_textu_syn2015|klasifikace textů]]. Aby bylo možné tento vliv pro srovnání korpusů eliminovat, bylo třeba starší korpusy znovu zpracovat stejnými verzemi těchto nástrojů a také je anotovat podle stejných kritérií, jako tomu bylo v případě korpusu SYN2015. Tato změna se nijak neprojevila ve vlastních korpusech SYN2000, SYN2005 a SYN2010, které jsou jako neměnné [[pojmy:referencni|referenční]] entity veřejně přístupné pomocí [[manualy:kontext:index|rozhraní KonText]]Korpus SYN2015 je však obsažen ve [[cnk:syn:verze4|verzi 4]] korpusu [[cnk:syn|SYN]] s aktualizovanou tokenizacísegmentacílemmatizací a klasifikací textů, k jehož subkorpusům odpovídajícím korpusům SYN2000SYN2005SYN2010 SYN2015 se vztahují veškeré dále uváděné frekvenční údaje. Tím byla na jedné straně zajištěna srovnatelnost všech těchto korpusů co se tokenizacesegmentacelemmatizace klasifikace textů týče, na straně druhé to však znamená, že se hodnoty absolutní frekvence ve srovnávacích frekvenčních seznamech pro korpusy SYN2000, SYN2005 a SYN2010 mohou lišit od frekvencí, které pro tyto korpusy udává KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho celková velikost; např. korpus SYN2005 se po přetokenizování "zmenšil" na 97,44 mil. slov. Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně danéa že i ony závisejí na množství dalších faktorů. Rozdílnou velikost srovnávaných korpusů však bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz dále) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.+K rozdílům patří odlišný způsob [[pojmy:token|tokenizace]] (rozdělení textu na jednotlivé slovní tvary - [[pojmy:token|tokens]]), [[pojmy:segmentace|segmentace]] (rozdělení na věty), novější verze [[pojmy:lemma#lemmatizace]] (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu) a -- v případě SYN2015 -- přepracovaná [[cnk:klasifikace_textu_syn2015|klasifikace textů]]. Aby bylo možné jejich vliv pro srovnání korpusů eliminovat, bylo potřeba starší korpusy znovu zpracovat stejnými verzemi těchto nástrojů a také je anotovat podle stejných kritérií, jako tomu bylo v případě korpusu SYN2015. Tyto změny se nijak neprojevily v původních reprezentativních korpusech SYN2000, SYN2005 a SYN2010, které jsou přístupné pomocí [[manualy:kontext:index|rozhraní KonText]] jako neměnné [[pojmy:referencni|referenční]] entity. Jsou však zapracovány do [[cnk:syn:verze4|verze 4]] korpusu [[cnk:syn|SYN]], který všechny tyto referenční korpusy obsahujeovšem s použitím jednotné tokenizacesegmentacelemmatizace klasifikace textů; proto jsou také veškeré dále uváděné frekvenční údaje založeny na subkorpusech SYN verze 4 [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|odpovídajících]] korpusům SYN2000SYN2005SYN2010 SYN2015. To však na druhou stranu znamená, že se hodnoty frekvence ve srovnávacích frekvenčních seznamech mohou lišit od frekvencí, které pro tyto referenční korpusy udává KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho celková velikost; např. korpus SYN2005 se po přetokenizování "zmenšil" na 97,44 mil. slov.((Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané a že i ony závisejí na množství dalších faktorů.)) Rozdílnou velikost srovnávaných korpusů bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz dále) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.
  
-Jedním z důležitých rozdílů mezi [[pojmy:reprezentativnost|reprezentativními]] korpusy řady SYN je jejich odlišné složení. Vedle absolutní frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence //přepočítané//, a to tři //parciální// (oborové) a jednu //celkovou//, která je vždy součtem parciálních (až na možný rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla absolutní frekvence daného slova ve 100 milionovém //srovnávacím korpusu//, ve kterém by byly všechny tři hlavní obory (beletrie, oborová literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každého hlavního oboru, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává absolutní frekvenci daného slova v příslušném hlavním oboru takového srovnávacího korpusu. Jde o podobné řešení jako v případě //Frekvenčního slovníku češtiny//((Čermák, F. - Křen, M. (eds): //Frekvenční slovník češtiny//. Nakladatelství Lidové noviny, Praha 2004.)) (FSČ), který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých hlavních oborech, pokud by tyto hlavní obory byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem.+Jedním z důležitých rozdílů mezi [[pojmy:reprezentativnost|reprezentativními]] korpusy řady SYN je jejich odlišné složení. Vedle frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence //přepočítané//, a to tři //parciální// a jednu //celkovou//, která je součtem všech parciálních (až na možný rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla frekvence daného slova ve 100 milionovém //srovnávacím korpusu//, ve kterém by byly všechny tři hlavní [[pojmy:txtype_group|textové skupiny]] (beletrie, oborová literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každé textové skupiny, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává frekvenci daného slova v příslušné textové skupině takového srovnávacího korpusu. Jde o podobné řešení jako v případě //Frekvenčního slovníku češtiny//((Čermák, F. - Křen, M. (eds): //Frekvenční slovník češtiny//. Nakladatelství Lidové noviny, Praha 2004.)) (FSČ), který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých textových skupinách, pokud by tyto textové skupiny byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem.
 ===== Popis údajů ve srovnávacích frekvenčních seznamech ===== ===== Popis údajů ve srovnávacích frekvenčních seznamech =====
  
-Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabelátory a zahrnuje v pořadí podle absolutní frekvence všechny slovní tvary nebo lemmata, jejichž absolutní frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|příslušnému korpusu odpovídá]].)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).+Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|odpovídá]] danému reprezentativnímu korpusu.)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).
  
-  - sloupec - [[pojmy:rank|rank]] (pořadí podle absolutní frekvence) +  - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank
   - sloupec - slovní tvar nebo lemma    - sloupec - slovní tvar nebo lemma 
-  - sloupec - absolutní [[pojmy:frekvence|frekvence]] +  - sloupec - [[pojmy:frekvence|frekvence]] 
   - sloupec - celková přepočítaná frekvence    - sloupec - celková přepočítaná frekvence 
   - sloupec - parciální přepočítaná frekvence pro beletrii    - sloupec - parciální přepočítaná frekvence pro beletrii 
Řádek 21: Řádek 21:
 **Frekvenční charakteristika** je zjednodušený kód zachycující pomocí znamének ''+/--'' typičnost/netypičnost výskytu dané položky (slovního tvaru nebo lemmatu) v konkrétní [[pojmy:txtype_group|textové skupině]]: beletrii (''B''), oborové literatuře (''O'') nebo publicistice (''P''). Označení pro danou položku (např. lemma //přikývnout//) a konkrétní korpus (např. SYN2005) je založeno na poměru parciální přepočítané frekvence pro každou textovou skupinu a celkové přepočítané frekvence: je-li tento poměr menší než 0,05 (max. 5% podíl), je daná položka označena znaménkem minus; je-li tento poměr větší než 0,9 (min. 90% podíl), je daná položka označena znaménkem plus. Pokud se u dané položky sejde více znamének, přednost má plus. **Frekvenční charakteristika** je zjednodušený kód zachycující pomocí znamének ''+/--'' typičnost/netypičnost výskytu dané položky (slovního tvaru nebo lemmatu) v konkrétní [[pojmy:txtype_group|textové skupině]]: beletrii (''B''), oborové literatuře (''O'') nebo publicistice (''P''). Označení pro danou položku (např. lemma //přikývnout//) a konkrétní korpus (např. SYN2005) je založeno na poměru parciální přepočítané frekvence pro každou textovou skupinu a celkové přepočítané frekvence: je-li tento poměr menší než 0,05 (max. 5% podíl), je daná položka označena znaménkem minus; je-li tento poměr větší než 0,9 (min. 90% podíl), je daná položka označena znaménkem plus. Pokud se u dané položky sejde více znamének, přednost má plus.
  
-Příklad: přepočítané frekvence lemmatu //přikývnout// uváděné pro korpus SYN2005 s doplněním procentního podílu jednotlivých parciálních frekvencí na celkové frekvenci v posledním sloupci.+Příklad: přepočítané frekvence lemmatu //přikývnout// uváděné pro korpus SYN2005 s doplněním procentního podílu jednotlivých parciálních frekvencí na celkové frekvenci do posledního sloupce následující tabulky:
  
 | parciální přepočítaná frekvence pro beletrii (B) |  5143 |  97,06 % | | parciální přepočítaná frekvence pro beletrii (B) |  5143 |  97,06 % |
Řádek 34: Řádek 34:
 ====== Způsob výpočtu přepočítaných frekvencí ====== ====== Způsob výpočtu přepočítaných frekvencí ======
  
-Poznámka: veškeré uváděné frekvence jsou odvozeny korpusu [[cnk:syn:verze4|SYN verze 4]] a jeho subkorpusů vytvořených pomocí atributu ''syn'', které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] příslušným reprezentativním korpusům [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]].+**Poznámka**: veškeré uváděné frekvence jsou odvozeny ze subkorpusů korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořených pomocí atributu ''syn'', které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] příslušným reprezentativním korpusům [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]].
  
-Označme $f$ absolutní frekvenci daného slova v příslušném korpusu a $f_{a}$, $f_{b}$, $f_{c}$ jeho parciální absolutní frekvence v hlavních oborech tohoto korpusu (beletrii, oborové literatuře a publicistice) tak, že $f_{a} + f_{b} + f_{c} = f$. Označme dále $a$, $b$, $c$ podíly velikostí hlavních oborů a velikosti celého korpusu; tyto podíly jsou tedy pro příslušný korpus konstantní a platí $a + b + c = 1$. Celková přepočítaná frekvence daného slova je potom dána vzorcem:+Označme $f$ frekvenci daného slova v příslušném korpusu a $f_{a}$, $f_{b}$, $f_{c}$ jeho parciální frekvence v hlavních textových skupinách tohoto korpusu (beletrii, oborové literatuře a publicistice) tak, že $f_{a} + f_{b} + f_{c} = f$. Označme dále $a$, $b$, $c$ podíly velikostí textových skupin a velikosti celého korpusu; tyto podíly jsou tedy pro příslušný korpus konstantní a platí $a + b + c = 1$. Celková přepočítaná frekvence daného slova je potom dána vzorcem:
  
 $$ f_{p} = \left( \frac{f_{a}}{a} + \frac{f_{b}}{b} + \frac{f_{c}}{c} \right) \cdot \frac{k}{3}$$ $$ f_{p} = \left( \frac{f_{a}}{a} + \frac{f_{b}}{b} + \frac{f_{c}}{c} \right) \cdot \frac{k}{3}$$
  
-kde $k$ je pro příslušný korpus normalizační konstanta, jejíž hodnotou je poměr 100 000 000 a přesné velikosti korpusu (např. pro korpus SYN2005 činí tato konstanta po zaokrouhlení 1,0262). Jednotlivé parciální přepočítané frekvence jsou pro každý hlavní obor dány takto:+kde $k$ je pro příslušný korpus normalizační konstanta, jejíž hodnotou je poměr 100 000 000 a přesné velikosti korpusu (např. pro korpus SYN2005 odvozený ze SYN verze 4 činí tato konstanta po zaokrouhlení 1,0262). Jednotlivé parciální přepočítané frekvence jsou pro každou textovou skupinu dány takto:
  
 $$f_{pa} = \frac{f_{a}}{a} \cdot \frac{k}{3}$$ $$f_{pa} = \frac{f_{a}}{a} \cdot \frac{k}{3}$$
Řádek 48: Řádek 48:
 $$f_{pc} = \frac{f_{c}}{c} \cdot \frac{k}{3}$$ $$f_{pc} = \frac{f_{c}}{c} \cdot \frac{k}{3}$$
  
-Chceme-li si ozřejmit význam vzorce pro parciální přepočítanou frekvenci, stačí si uvědomit, že první podíl (např. $f_{a}/a$) udává, jaká by byla frekvence daného slova v korpusu, který by se skládal pouze z textů určitého oboru. Vydělíme-li tuto frekvenci třemi, dostaneme frekvenci daného slova ve třetině takového korpusu, tedy vlastně jeho parciální absolutní frekvenci v korpusu, ve kterém jsou všechny obory zastoupené právě jednou třetinou. Tato frekvence je konstantou $k$ již pouze normalizována vzhledem ke stomilionovému korpusu. Součtem $f_{pa} + f_{pb} + f_{pc} = f_{p}$ pak dostáváme vzorec pro výpočet celkové přepočítané frekvence.+Chceme-li si ozřejmit význam vzorce pro parciální přepočítanou frekvenci, stačí si uvědomit, že první podíl (např. $f_{a}/a$) udává, jaká by byla frekvence daného slova v korpusu, který by se skládal pouze z textů určité textové skupiny. Vydělíme-li tuto frekvenci třemi, dostaneme frekvenci daného slova ve třetině takového korpusu, tedy vlastně jeho parciální frekvenci v korpusu, ve kterém jsou všechny textové skupiny zastoupeny právě jednou třetinou. Tato frekvence je konstantou $k$ již pouze normalizována vzhledem ke stomilionovému korpusu. Součtem $f_{pa} + f_{pb} + f_{pc} = f_{p}$ pak dostáváme vzorec pro výpočet celkové přepočítané frekvence.
  
-Vezměme nyní jako příklad lemma //přikývnout//, jehož absolutní frekvence v beletristické části korpusu SYN2005 (vybrané jako subkorpus ze SYN verze 4) je 4 807, tedy $f_{a} = 4 807$. Protože beletrie v korpusu SYN2005 čítá 31 157 451 slovních tvarů a přesná velikost korpusu SYN2005 je 97 444 340 pozic, dostáváme $a = 31 157 451 / 97 444 340 = 0,3197$. Pokud by se tedy celý korpus SYN2005 skládal pouze z beletrie, byla by frekvence tohoto tvaru v korpusu $f_{a}/a = 15 036$. Po vynásobení této frekvence zlomkem $k/3$ dostáváme parciální přepočítanou frekvenci lemmatu //přikývnout// pro beletrii v korpusu SYN2005, která je 5 143.+Vezměme nyní jako příklad lemma //přikývnout//, jehož frekvence v beletristické části korpusu SYN2005 (vybrané jako subkorpus ze SYN verze 4) je 4 807, tedy $f_{a} = 4 807$. Protože beletrie v korpusu SYN2005 čítá 31 157 451 slovních tvarů a přesná velikost korpusu SYN2005 je 97 444 340 pozic, dostáváme $a = 31 157 451 / 97 444 340 = 0,3197$. Pokud by se tedy celý korpus SYN2005 skládal pouze z beletrie, byla by frekvence tohoto tvaru v korpusu $f_{a}/a = 15 036$. Po vynásobení této frekvence zlomkem $k/3$ dostáváme parciální přepočítanou frekvenci lemmatu //přikývnout// pro beletrii v korpusu SYN2005, která je 5 143.
  
-Závěrem považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s frekvencemi absolutními. Například platí stejně jako pro absolutní frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom zhruba 97 milionů, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.+Závěrem považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s běžnými frekvencemi. Například platí stejně jako pro běžnou frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom zhruba 97 milionů, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.
  
 ===== Jak citovat srovnávací frekvenční seznamy ===== ===== Jak citovat srovnávací frekvenční seznamy =====
Řádek 59: Řádek 59:
  
 Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz
 +
 +Poznámka: na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně.
  
 ===== Download ===== ===== Download =====
  
-**Důležité upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!+**Upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!
  
-Souhrn novinek verze aktualizované v záři 2016: +Souhrn novinek ve srovnávacích frekvenčních seznamech ze záři 2016: 
-  * přidání dat z korpusu SYN2015;+  * data také z korpusu SYN2015;
   * přidání frekvenčních charakteristik;   * přidání frekvenčních charakteristik;
   * jednotné kódování češtiny v UTF-8.   * jednotné kódování češtiny v UTF-8.
  
-Systém  ^  Slovní tvary   Lemmata ^ +^ Slovní tvary ^ Lemmata ^ 
-^ Windows   {{:seznamy:syn2000_word.zip|SYN2000}}   {{:seznamy:syn2000_lemma.zip|SYN2000}}  +| {{:seznamy:syn2000_word_utf8.zip|SYN2000}} | {{:seznamy:syn2000_lemma_utf8.zip|SYN2000}} | 
-^ :::       {{:seznamy:syn2005_word.zip|SYN2005}}   {{:seznamy:syn2005_lemma.zip|SYN2005}}  +| {{:seznamy:syn2005_word_utf8.zip|SYN2005}} | {{:seznamy:syn2005_lemma_utf8.zip|SYN2005}} | 
-^ :::       {{:seznamy:syn2010_word.zip|SYN2010}}   {{:seznamy:syn2010_lemma.zip|SYN2010}}  |  +| {{:seznamy:syn2010_word_utf8.zip|SYN2010}} | {{:seznamy:syn2010_lemma_utf8.zip|SYN2010}} | 
-^ Linux     {{:seznamy:syn2000_word.gz|SYN2000}}   {{:seznamy:syn2000_lemma.gz|SYN2000}} +| {{:seznamy:syn2015_word_utf8.zip|SYN2015}} | {{:seznamy:syn2015_lemma_utf8.zip|SYN2015}} |
-^ :::      |  {{:seznamy:syn2005_word.gz|SYN2005}}  |  {{:seznamy:syn2005_lemma.gz|SYN2005}} +
-^ :::      |  {{:seznamy:syn2010_word.gz|SYN2010}}  |  {{:seznamy:syn2010_lemma.gz|SYN2010}}  |+
  
 Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]] Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]]
  
 {{https://i.creativecommons.org/l/by/4.0/88x31.png}} {{https://i.creativecommons.org/l/by/4.0/88x31.png}}
- 
-Na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně. 
  
  --- //Michal Křen//  --- //Michal Křen//