Abecední a retrográdní slovníky

Na této stránce najdete seznamy lemmat a slovních tvarů založené na reprezentativních korpusech SYN2000, SYN2005, SYN2010 a SYN2015. Všechny tyto seznamy jsou výsledkem zkrácení, zjednodušení a přetřídění srovnávacích frekvenčních seznamů, při kterém jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů – podobné seznamy lze totiž pomocí rozhraní KonText vytvářet z jakéhokoli dostupného korpusu ČNK, navíc s možností rozsáhlé parametrizace; podrobnější informace najdete v manuálu ke KonTextu.

Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto:

byly odstraněny sloupce s celkovou i parciální přepočítanou frekvencí (podrobnosti zde),
byla vyřazena hesla, která se neskládají výhradně z alfabetických znaků a pomlčky,
byla vyřazena hesla s frekvencí nižší než 100,
takto vzniklý seznam hesel byl opatřen novými ranky (pořadím) podle frekvence,
výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně.

Celkový počet souborů se tím tedy zdvojnásobuje, protože každý z výše uvedených seznamů je dostupný v abecední i retrográdní verzi; obě verze se přitom liší pouze tímto výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel.

Popis údajů ve slovnících

Podobně jako srovnávací frekvenční seznamy jsou i abecední a retrográdní slovníky uloženy v zazipovaných souborech v kódování češtiny UTF-8. Z názvu souboru je zřejmé, zda obsahuje slovní tvary nebo lemmata, na kterém korpusu je soubor založen i jeho setřídění.

Každý soubor se skládá ze tří sloupců oddělených tabulátory:

sloupec - rank (pořadí podle frekvence; mají-li dvě hesla stejnou frekvenci, je stejný i jejich rank)
sloupec - slovní tvar nebo lemma
sloupec - frekvence

Jak citovat abecední a retrográdní slovníky

V případě, že tyto slovníky použijete ve vědecké práci, uvádějte je prosím v bibliografii následujícím způsobem:

Český národní korpus: Abecední a retrográdní slovníky. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz.

Download

Důležité upozornění: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu SYN2015 do srovnávacích frekvenčních seznamů a s tím spojené použití korpusu SYN verze 4 jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro abecední a retrográdní slovníky. Důsledkem těchto změn však je, že nové slovníky nejsou srovnatelné s původními staženými z této stránky před její aktualizací!

Abecední a retrográdní slovníky používají kódování češtiny UTF-8.

Korpus	Slovní tvary	Lemmata
SYN2000	abecední	abecední
SYN2000	retrográdní	retrográdní
SYN2005	abecední	abecední
SYN2005	retrográdní	retrográdní
SYN2010	abecední	abecední
SYN2010	retrográdní	retrográdní
SYN2015	abecední	abecední
SYN2015	retrográdní	retrográdní