AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:srovnavaci_seznamy [2016/09/14 11:05] – [Srovnávací seznamy] Michal Křenseznamy:srovnavaci_seznamy [2016/09/14 14:18] (aktuální) – [Download] Michal Křen
Řádek 8: Řádek 8:
 ===== Popis údajů ve srovnávacích frekvenčních seznamech ===== ===== Popis údajů ve srovnávacích frekvenčních seznamech =====
  
-Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|příslušnému korpusu odpovídá]].)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).+Výsledné frekvenční seznamy jsou uloženy v textových souborech, které jsou k dispozici níže v sekci [[seznamy:srovnavaci_seznamy#download]]. Každý ze souborů se skládá z osmi sloupců oddělených tabulátory a zahrnuje v pořadí podle frekvence všechny slovní tvary nebo lemmata, jejichž frekvence v příslušném korpusu((Přesněji řečeno jde o subkorpus korpusu [[cnk:syn:verze4|SYN verze 4]] vytvořený pomocí atributu ''syn'', který svým složením [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|odpovídá]] danému reprezentativnímu korpusu.)) je větší nebo rovna deseti a zároveň obsahují alespoň jeden alfabetický znak a neobsahují žádnou číslici (to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka).
  
   - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank)    - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě položky stejnou frekvenci, je stejný i jejich rank) 
Řádek 59: Řádek 59:
  
 Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz Český národní korpus: //Srovnávací frekvenční seznamy//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz
 +
 +Poznámka: na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně.
  
 ===== Download ===== ===== Download =====
  
-**Důležité upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!+**Upozornění**: tato stránka byla aktualizována v září 2016. Jedním z důvodů bylo přidání dat z korpusu SYN2015 k datům z korpusů SYN2000, SYN2005 a SYN2010 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština v poslední době prošla. Přidání korpusu SYN2015 si však (z důvodů uvedených na začátku textu) vyžádalo přepracování seznamů na základě nově zveřejněného korpusu SYN verze 4, takže musely být aktualizovány všechny soubory nabízené ke stažení včetně seznamů pro SYN2000, SYN2005 a SYN2010. Tato aktualizace odráží vylepšení anotace (zvl. přepracovanou [[cnk:klasifikace_textu_syn2015|klasifikaci textů]]) a nástrojů použitých ke zpracování korpusů (zvl. morfologické analýzy a desambiguace), které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2015. Důsledkem všech těchto nutných změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!
  
-Souhrn novinek verze aktualizované v záři 2016: +Souhrn novinek ve srovnávacích frekvenčních seznamech ze záři 2016: 
-  * přidání dat z korpusu SYN2015;+  * data také z korpusu SYN2015;
   * přidání frekvenčních charakteristik;   * přidání frekvenčních charakteristik;
   * jednotné kódování češtiny v UTF-8.   * jednotné kódování češtiny v UTF-8.
  
-Systém  ^  Slovní tvary   Lemmata ^ +^ Slovní tvary ^ Lemmata ^ 
-^ Windows   {{:seznamy:syn2000_word.zip|SYN2000}}   {{:seznamy:syn2000_lemma.zip|SYN2000}}  +| {{:seznamy:syn2000_word_utf8.zip|SYN2000}} | {{:seznamy:syn2000_lemma_utf8.zip|SYN2000}} | 
-^ :::       {{:seznamy:syn2005_word.zip|SYN2005}}   {{:seznamy:syn2005_lemma.zip|SYN2005}}  +| {{:seznamy:syn2005_word_utf8.zip|SYN2005}} | {{:seznamy:syn2005_lemma_utf8.zip|SYN2005}} | 
-^ :::       {{:seznamy:syn2010_word.zip|SYN2010}}   {{:seznamy:syn2010_lemma.zip|SYN2010}}  |  +| {{:seznamy:syn2010_word_utf8.zip|SYN2010}} | {{:seznamy:syn2010_lemma_utf8.zip|SYN2010}} | 
-^ Linux     {{:seznamy:syn2000_word.gz|SYN2000}}   {{:seznamy:syn2000_lemma.gz|SYN2000}} +| {{:seznamy:syn2015_word_utf8.zip|SYN2015}} | {{:seznamy:syn2015_lemma_utf8.zip|SYN2015}} |
-^ :::      |  {{:seznamy:syn2005_word.gz|SYN2005}}  |  {{:seznamy:syn2005_lemma.gz|SYN2005}} +
-^ :::      |  {{:seznamy:syn2010_word.gz|SYN2010}}  |  {{:seznamy:syn2010_lemma.gz|SYN2010}}  |+
  
 Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]] Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]]
  
 {{https://i.creativecommons.org/l/by/4.0/88x31.png}} {{https://i.creativecommons.org/l/by/4.0/88x31.png}}
- 
-Na stránce [[seznamy:abc_seznamy|Abecední a retrográdní slovníky]] jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně. 
  
  --- //Michal Křen//  --- //Michal Křen//