Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
seznamy:abc_seznamy [2016/09/14 13:57] – [Abecední a retrográdní slovníky] michalkren | seznamy:abc_seznamy [2016/09/14 14:18] (aktuální) – [Download] michalkren |
---|
====== Abecední a retrográdní slovníky ====== | ====== Abecední a retrográdní slovníky ====== |
| |
Seznamy [[pojmy:lemma|lemmat]] a [[pojmy:word|slovních tvarů]] na této stránce jsou založené na reprezentativních korpusech [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]. Protože je pro řadu účelů důležité jednotné zpracování všemi relevantními nástroji ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:lemma#lemmatizace]] atd.), byly tyto seznamy odvozeny ze subkorpusů korpusu [[cnk:syn:verze4|SYN verze 4]], které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] původním [[pojmy:referenční|referenčním]] korpusům. Konkrétně jsou tyto seznamy výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při němž jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů -- podobné seznamy lze totiž snadno vytvářet pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] webového rozhraní KonText z jakéhokoli dostupného korpusu ČNK (příp. jeho subkorpusu), navíc s možností parametrizace. | Abecední a retrográdní slovníky [[pojmy:lemma|lemmat]] a [[pojmy:word|slovních tvarů]] jsou založeny na reprezentativních korpusech [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]. Protože je pro řadu účelů důležité jednotné zpracování všemi relevantními nástroji ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:lemma#lemmatizace]] atd.), byly tyto seznamy odvozeny ze subkorpusů korpusu [[cnk:syn:verze4|SYN verze 4]], které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] původním [[pojmy:referenční|referenčním]] korpusům. Konkrétně jsou Abecední a retrográdní slovníky výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při němž jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů -- podobné seznamy lze totiž snadno vytvářet pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] webového rozhraní KonText z jakéhokoli dostupného korpusu ČNK (příp. jeho subkorpusu), navíc s možností parametrizace. |
| |
Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto: | Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto: |
- výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně. | - výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně. |
| |
| Protože je každý z výše uvedených seznamů dostupný v abecední i retrográdní verzi, celkový počet souborů se tím zdvojnásobil; obě verze se přitom liší pouze výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel. |
| |
Protože je každý z výše uvedených seznamů je dostupný v abecední i retrográdní verzi, celkový počet souborů se tím zdvojnásobil; obě verze se přitom liší pouze výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel. | **Upozornění**: jednotné zpracování samo o sobě nezajišťuje srovnatelnost -- vzhledem k rozdílnému složení reprezentativních korpusů proto při porovnávání lexikálních frekvencí doporučujeme používat [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]]. |
| |
===== Popis údajů ve slovnících ===== | ===== Popis údajů ve slovnících ===== |
===== Download ===== | ===== Download ===== |
| |
**Důležité upozornění**: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu [[cnk:syn2015|SYN2015]] do [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]] a s tím spojené použití korpusu [[cnk:syn:verze4|SYN verze 4]] jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro abecední a retrográdní slovníky. Důsledkem těchto změn však je, že **nové slovníky nejsou srovnatelné s původními** staženými z této stránky před její aktualizací! | **Upozornění**: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu [[cnk:syn2015|SYN2015]] do [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]] a s tím spojené použití korpusu [[cnk:syn:verze4|SYN verze 4]] jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro abecední a retrográdní slovníky. Důsledkem těchto změn však je, že **nové slovníky nejsou srovnatelné s původními** staženými z této stránky před její aktualizací! |
| |
Abecední a retrográdní slovníky používají kódování češtiny UTF-8. | Abecední a retrográdní slovníky používají kódování češtiny UTF-8. |