Abecední a retrográdní slovníky lemmat a slovních tvarů jsou založeny na reprezentativních korpusech SYN2000, SYN2005, SYN2010 a SYN2015. Protože je pro řadu účelů důležité jednotné zpracování všemi relevantními nástroji (tokenizace, segmentace, lemmatizace atd.), byly tyto seznamy odvozeny ze subkorpusů korpusu SYN verze 4, které svým složením odpovídají původním referenčním korpusům. Konkrétně jsou Abecední a retrográdní slovníky výsledkem zkrácení, zjednodušení a přetřídění srovnávacích frekvenčních seznamů, při němž jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů – podobné seznamy lze totiž snadno vytvářet pomocí funkce Seznam slov webového rozhraní KonText z jakéhokoli dostupného korpusu ČNK (příp. jeho subkorpusu), navíc s možností parametrizace.
Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto:
Protože je každý z výše uvedených seznamů dostupný v abecední i retrográdní verzi, celkový počet souborů se tím zdvojnásobil; obě verze se přitom liší pouze výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel.
Upozornění: jednotné zpracování samo o sobě nezajišťuje srovnatelnost – vzhledem k rozdílnému složení reprezentativních korpusů proto při porovnávání lexikálních frekvencí doporučujeme používat srovnávací frekvenční seznamy.
Podobně jako srovnávací frekvenční seznamy jsou i abecední a retrográdní slovníky uloženy v zazipovaných souborech v kódování češtiny UTF-8. Z názvu souboru je zřejmé, zda obsahuje slovní tvary nebo lemmata, na kterém korpusu je soubor založen i jeho setřídění.
Každý soubor se skládá ze tří sloupců oddělených tabulátory:
V případě, že tyto slovníky použijete ve vědecké práci, uvádějte je prosím v bibliografii následujícím způsobem:
Český národní korpus: Abecední a retrográdní slovníky. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupné z WWW: http://www.korpus.cz.
Upozornění: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu SYN2015 do srovnávacích frekvenčních seznamů a s tím spojené použití korpusu SYN verze 4 jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro abecední a retrográdní slovníky. Důsledkem těchto změn však je, že nové slovníky nejsou srovnatelné s původními staženými z této stránky před její aktualizací!
Abecední a retrográdní slovníky používají kódování češtiny UTF-8.
Korpus | Slovní tvary | Lemmata |
---|---|---|
SYN2000 | abecední | abecední |
retrográdní | retrográdní | |
SYN2005 | abecední | abecední |
retrográdní | retrográdní | |
SYN2010 | abecední | abecední |
retrográdní | retrográdní | |
SYN2015 | abecední | abecední |
retrográdní | retrográdní |
Toto dílo podléhá licenci Creative Commons CC BY 4.0 International
— Michal Křen