AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:srovnavaci_seznamy [2016/09/14 11:00] – [Srovnávací seznamy] Michal Křenseznamy:srovnavaci_seznamy [2016/09/14 14:18] (aktuální) – [Download] Michal Křen
Řádek 3: Řádek 3:
 [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsou [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpusy současné [[pojmy:psany|psané]] češtiny, z nichž každý obsahuje 100 milionů textových slov ([[pojmy:token|tokens]] bez započtení interpunkce). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách věnovaných popisu těchto korpusů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat [[pojmy:frekvence|frekvence]] jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty frekvence, tedy prostého součtu všech výskytů daného [[pojmy:word|slovního tvaru]] nebo [[pojmy:lemma|lemmatu]] v korpusu, mohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizovány, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat. [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsou [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpusy současné [[pojmy:psany|psané]] češtiny, z nichž každý obsahuje 100 milionů textových slov ([[pojmy:token|tokens]] bez započtení interpunkce). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách věnovaných popisu těchto korpusů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat [[pojmy:frekvence|frekvence]] jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty frekvence, tedy prostého součtu všech výskytů daného [[pojmy:word|slovního tvaru]] nebo [[pojmy:lemma|lemmatu]] v korpusu, mohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizovány, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat.
  
-K rozdílům patří odlišný způsob [[pojmy:token|tokenizace]] (rozdělení textu na jednotlivé slovní tvary - [[pojmy:token|tokens]]), [[pojmy:segmentace|segmentace]] (rozdělení na věty), novější verze [[pojmy:lemma#lemmatizace]] (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu) a -- v případě SYN2015 -- přepracovaná [[cnk:klasifikace_textu_syn2015|klasifikace textů]]. Aby bylo možné jejich vliv pro srovnání korpusů eliminovat, bylo potřeba starší korpusy znovu zpracovat stejnými verzemi těchto nástrojů a také je anotovat podle stejných kritérií, jako tomu bylo v případě korpusu SYN2015. Tyto změny se nijak neprojevily v původních reprezentativních korpusech SYN2000, SYN2005 a SYN2010, které jsou přístupné pomocí [[manualy:kontext:index|rozhraní KonText]] jako neměnné [[pojmy:referencni|referenční]] entity. Jsou však zapracovány do [[cnk:syn:verze4|verze 4]] korpusu [[cnk:syn|SYN]], který všechny referenční korpusy obsahuje, ovšem s použitím jednotné tokenizace, segmentace, lemmatizace a klasifikace textů; proto jsou také veškeré dále uváděné frekvenční údaje [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|založeny na subkorpusech]] SYN verze 4 odpovídajících korpusům SYN2000, SYN2005, SYN2010 a SYN2015. To však na druhou stranu znamená, že se hodnoty frekvence ve srovnávacích frekvenčních seznamech mohou lišit od frekvencí, které pro referenční korpusy udává KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho celková velikost; např. korpus SYN2005 se po přetokenizování "zmenšil" na 97,44 mil. slov.((Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané a že i ony závisejí na množství dalších faktorů.)) Rozdílnou velikost srovnávaných korpusů bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz dále) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.+K rozdílům patří odlišný způsob [[pojmy:token|tokenizace]] (rozdělení textu na jednotlivé slovní tvary - [[pojmy:token|tokens]]), [[pojmy:segmentace|segmentace]] (rozdělení na věty), novější verze [[pojmy:lemma#lemmatizace]] (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu) a -- v případě SYN2015 -- přepracovaná [[cnk:klasifikace_textu_syn2015|klasifikace textů]]. Aby bylo možné jejich vliv pro srovnání korpusů eliminovat, bylo potřeba starší korpusy znovu zpracovat stejnými verzemi těchto nástrojů a také je anotovat podle stejných kritérií, jako tomu bylo v případě korpusu SYN2015. Tyto změny se nijak neprojevily v původních reprezentativních korpusech SYN2000, SYN2005 a SYN2010, které jsou přístupné pomocí [[manualy:kontext:index|rozhraní KonText]] jako neměnné [[pojmy:referencni|referenční]] entity. Jsou však zapracovány do [[cnk:syn:verze4|verze 4]] korpusu [[cnk:syn|SYN]], který všechny tyto referenční korpusy obsahuje, ovšem s použitím jednotné tokenizace, segmentace, lemmatizace a klasifikace textů; proto jsou také veškeré dále uváděné frekvenční údaje založeny na subkorpusech SYN verze 4 [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|odpovídajících]] korpusům SYN2000, SYN2005, SYN2010 a SYN2015. To však na druhou stranu znamená, že se hodnoty frekvence ve srovnávacích frekvenčních seznamech mohou lišit od frekvencí, které pro tyto referenční korpusy udává KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho celková velikost; např. korpus SYN2005 se po přetokenizování "zmenšil" na 97,44 mil. slov.((Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané a že i ony závisejí na množství dalších faktorů.)) Rozdílnou velikost srovnávaných korpusů bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz dále) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.
  
 Jedním z důležitých rozdílů mezi [[pojmy:reprezentativnost|reprezentativními]] korpusy řady SYN je jejich odlišné složení. Vedle frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence //přepočítané//, a to tři //parciální// a jednu //celkovou//, která je součtem všech parciálních (až na možný rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla frekvence daného slova ve 100 milionovém //srovnávacím korpusu//, ve kterém by byly všechny tři hlavní [[pojmy:txtype_group|textové skupiny]] (beletrie, oborová literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každé textové skupiny, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává frekvenci daného slova v příslušné textové skupině takového srovnávacího korpusu. Jde o podobné řešení jako v případě //Frekvenčního slovníku češtiny//((Čermák, F. - Křen, M. (eds): //Frekvenční slovník češtiny//. Nakladatelství Lidové noviny, Praha 2004.)) (FSČ), který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých textových skupinách, pokud by tyto textové skupiny byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem. Jedním z důležitých rozdílů mezi [[pojmy:reprezentativnost|reprezentativními]] korpusy řady SYN je jejich odlišné složení. Vedle frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence //přepočítané//, a to tři //parciální// a jednu //celkovou//, která je součtem všech parciálních (až na možný rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla frekvence daného slova ve 100 milionovém //srovnávacím korpusu//, ve kterém by byly všechny tři hlavní [[pojmy:txtype_group|textové skupiny]] (beletrie, oborová literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každé textové skupiny, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává frekvenci daného slova v příslušné textové skupině takového srovnávacího korpusu. Jde o podobné řešení jako v případě //Frekvenčního slovníku češtiny//((Čermák, F. - Křen, M. (eds): //Frekvenční slovník češtiny//. Nakladatelství Lidové noviny, Praha 2004.)) (FSČ), který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých textových skupinách, pokud by tyto textové skupiny byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem.
 ===== Popis údajů ve srovnávacích frekvenčních seznamech ===== ===== Popis údajů ve srovnávacích frekvenčních seznamech =====
  
-Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|příslušnému korpusu odpovídá]].)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).+Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|odpovídá]] danému reprezentativnímu korpusu.)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).
  
   - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank)    - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank) 
Řádek 59: Řádek 59:
  
 Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz
 +
 +Poznámka: na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně.
  
 ===== Download ===== ===== Download =====
  
-**Důležité upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!+**Upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!
  
-Souhrn novinek verze aktualizované v záři 2016: +Souhrn novinek ve srovnávacích frekvenčních seznamech ze záři 2016: 
-  * přidání dat z korpusu SYN2015;+  * data také z korpusu SYN2015;
   * přidání frekvenčních charakteristik;   * přidání frekvenčních charakteristik;
   * jednotné kódování češtiny v UTF-8.   * jednotné kódování češtiny v UTF-8.
  
-Systém  ^  Slovní tvary   Lemmata ^ +^ Slovní tvary ^ Lemmata ^ 
-^ Windows   {{:seznamy:syn2000_word.zip|SYN2000}}   {{:seznamy:syn2000_lemma.zip|SYN2000}}  +| {{:seznamy:syn2000_word_utf8.zip|SYN2000}} | {{:seznamy:syn2000_lemma_utf8.zip|SYN2000}} | 
-^ :::       {{:seznamy:syn2005_word.zip|SYN2005}}   {{:seznamy:syn2005_lemma.zip|SYN2005}}  +| {{:seznamy:syn2005_word_utf8.zip|SYN2005}} | {{:seznamy:syn2005_lemma_utf8.zip|SYN2005}} | 
-^ :::       {{:seznamy:syn2010_word.zip|SYN2010}}   {{:seznamy:syn2010_lemma.zip|SYN2010}}  |  +| {{:seznamy:syn2010_word_utf8.zip|SYN2010}} | {{:seznamy:syn2010_lemma_utf8.zip|SYN2010}} | 
-^ Linux     {{:seznamy:syn2000_word.gz|SYN2000}}   {{:seznamy:syn2000_lemma.gz|SYN2000}} +| {{:seznamy:syn2015_word_utf8.zip|SYN2015}} | {{:seznamy:syn2015_lemma_utf8.zip|SYN2015}} |
-^ :::      |  {{:seznamy:syn2005_word.gz|SYN2005}}  |  {{:seznamy:syn2005_lemma.gz|SYN2005}} +
-^ :::      |  {{:seznamy:syn2010_word.gz|SYN2010}}  |  {{:seznamy:syn2010_lemma.gz|SYN2010}}  |+
  
 Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]] Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]]
  
 {{https://i.creativecommons.org/l/by/4.0/88x31.png}} {{https://i.creativecommons.org/l/by/4.0/88x31.png}}
- 
-Na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně. 
  
  --- //Michal Křen//  --- //Michal Křen//