AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:abc_seznamy [2016/09/13 13:52] – [Abecední a retrográdní slovníky] Michal Křenseznamy:abc_seznamy [2016/09/14 14:18] (aktuální) – [Download] Michal Křen
Řádek 1: Řádek 1:
 ====== Abecední a retrográdní slovníky ====== ====== Abecední a retrográdní slovníky ======
  
-Na této stránce najdete seznamy [[pojmy:lemma|lemmat]] a [[pojmy:word|slovních tvarů]] založené na reprezentativních korpusech [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]. Všechny tyto seznamy jsou výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při kterém jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů. Každý z nich vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto:+Abecední a retrográdní slovníky [[pojmy:lemma|lemmat]] a [[pojmy:word|slovních tvarů]] jsou založeny na reprezentativních korpusech [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]. Protože je pro řadu účelů důležité jednotné zpracování všemi relevantními nástroji ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:lemma#lemmatizace]] atd.), byly tyto seznamy odvozeny ze subkorpusů korpusu [[cnk:syn:verze4|SYN verze 4]], které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] původním [[pojmy:referenční|referenčním]] korpusům. Konkrétně jsou Abecední a retrográdní slovníky výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při němž jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů -- podobné seznamy lze totiž snadno vytvářet pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] webového rozhraní KonText z jakéhokoli dostupného korpusu ČNK (přípjeho subkorpusu), navíc s možností parametrizace. 
 + 
 +Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto:
  
   - byly odstraněny sloupce s celkovou i parciální přepočítanou frekvencí (podrobnosti [[seznamy:srovnavaci_seznamy#popis_udaju_ve_srovnavacich_frekvencnich_seznamech|zde]]),   - byly odstraněny sloupce s celkovou i parciální přepočítanou frekvencí (podrobnosti [[seznamy:srovnavaci_seznamy#popis_udaju_ve_srovnavacich_frekvencnich_seznamech|zde]]),
Řádek 9: Řádek 11:
   - výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně.   - výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně.
  
 +Protože je každý z výše uvedených seznamů dostupný v abecední i retrográdní verzi, celkový počet souborů se tím zdvojnásobil; obě verze se přitom liší pouze výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel.
  
-Celkový počet souborů se tím tedy zdvojnásobuje, protože každý z výše uvedených seznamů je dostupný v abecední i retrográdní verzi; obě verze se itom liší pouze tímto výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel.+**Upozornění**: jednotné zpracování samo o sobě nezajišťuje srovnatelnost -- vzhledem k rozdílnému složení reprezentativních korpusů proto při porovnávání lexikálních frekvencí doporučujeme používat [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]].
  
 ===== Popis údajů ve slovnících ===== ===== Popis údajů ve slovnících =====
  
-Podobně jako [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] jsou i abecední a retrográdní slovníky uloženy v zazipovaných textových souborech v kódování češtiny UTF-8. Z názvu souboru je zřejmé, zda obsahuje slovní tvary nebo lemmata, na kterém korpusu je založen i jeho setřídění.+Podobně jako [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] jsou i abecední a retrográdní slovníky uloženy v zazipovaných souborech v kódování češtiny UTF-8. Z názvu souboru je zřejmé, zda obsahuje slovní tvary nebo lemmata, na kterém korpusu je soubor založen i jeho setřídění.
  
 Každý soubor se skládá ze tří sloupců oddělených tabulátory: Každý soubor se skládá ze tří sloupců oddělených tabulátory:
   - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě hesla stejnou frekvenci, je stejný i jejich rank)   - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě hesla stejnou frekvenci, je stejný i jejich rank)
   - sloupec - slovní tvar nebo lemma   - sloupec - slovní tvar nebo lemma
-  - sloupec - [[pojmy:frekvence|frekvence]] (počet výskytů daného hesla v korpusu)+  - sloupec - [[pojmy:frekvence|frekvence]]
  
 ===== Jak citovat abecední a retrográdní slovníky ===== ===== Jak citovat abecední a retrográdní slovníky =====
Řádek 25: Řádek 28:
 V případě, že tyto slovníky použijete ve vědecké práci, uvádějte je prosím v bibliografii následujícím způsobem: V případě, že tyto slovníky použijete ve vědecké práci, uvádějte je prosím v bibliografii následujícím způsobem:
  
-//Český národní korpus: Abecední a retrográdní slovníky//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz.+Český národní korpus: //Abecední a retrográdní slovníky//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz.
  
 ===== Download ===== ===== Download =====
  
-**Důležité upozornění**: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu [[cnk:syn2015|SYN2015]] do [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]] a s tím spojené použití korpusu [[cnk:syn:verze4|SYN verze 4]] jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro seznamy abecední a retrográdní. Důsledkem těchto změn však je, že **nové seznamy nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!+**Upozornění**: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu [[cnk:syn2015|SYN2015]] do [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]] a s tím spojené použití korpusu [[cnk:syn:verze4|SYN verze 4]] jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro abecední a retrográdní slovníky. Důsledkem těchto změn však je, že **nové slovníky nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!
  
-Všechny seznamy používají kódování češtiny UTF-8.+Abecední a retrográdní slovníky používají kódování češtiny UTF-8.
  
-^ Korpus ^  Slovní tvary   Lemmata ^ +^ Korpus ^ Slovní tvary ^ Lemmata ^ 
-^ SYN2000 |   {{:seznamy:syn2000_word_abc.zip|abecední}}     {{:seznamy:syn2000_lemma_abc.zip|abecední}}   +^ SYN2000 |  {{:seznamy:syn2000_word_abc_utf8.zip|abecední}}   {{:seznamy:syn2000_lemma_abc_utf8.zip|abecední}}  
-^ :::      {{:seznamy:syn2000_word_cba.zip|retrográdní}} | {{:seznamy:syn2000_lemma_cba.zip|retrográdní}} +^ :::      {{:seznamy:syn2000_word_cba_utf8.zip|retrográdní}}   {{:seznamy:syn2000_lemma_cba_utf8.zip|retrográdní}} 
-^ SYN2005 |   {{:seznamy:syn2005_word_abc.zip|abecední}}     {{:seznamy:syn2005_lemma_abc.zip|abecední}}   +^ SYN2005 |  {{:seznamy:syn2005_word_abc_utf8.zip|abecední}}   {{:seznamy:syn2005_lemma_abc_utf8.zip|abecední}}  
-^ :::      {{:seznamy:syn2005_word_cba.zip|retrográdní}} | {{:seznamy:syn2005_lemma_cba.zip|retrográdní}} +^ :::      {{:seznamy:syn2005_word_cba_utf8.zip|retrográdní}}   {{:seznamy:syn2005_lemma_cba_utf8.zip|retrográdní}} 
-^ SYN2010 |   {{:seznamy:syn2010_word_abc.zip|abecední}}     {{:seznamy:syn2010_lemma_abc.zip|abecední}}   +^ SYN2010 |  {{:seznamy:syn2010_word_abc_utf8.zip|abecední}}   {{:seznamy:syn2010_lemma_abc_utf8.zip|abecední}}  
-^ :::      {{:seznamy:syn2010_word_cba.zip|retrográdní}} | {{:seznamy:syn2010_lemma_cba.zip|retrográdní}}  |+^ :::      {{:seznamy:syn2010_word_cba_utf8.zip|retrográdní}}   {{:seznamy:syn2010_lemma_cba_utf8.zip|retrográdní}} 
 +^ SYN2015 |  {{:seznamy:syn2015_word_abc_utf8.zip|abecední}}  |  {{:seznamy:syn2015_lemma_abc_utf8.zip|abecední}} 
 +^ :::      {{:seznamy:syn2015_word_cba_utf8.zip|retrográdní}}  |  {{:seznamy:syn2015_lemma_cba_utf8.zip|retrográdní}}  |
  
 Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]] Toto dílo podléhá licenci Creative Commons [[http://creativecommons.org/licenses/by/4.0/ | CC BY 4.0 International]]