Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- seznamy:abc_seznamy [2016/09/14 13:24] – [Jak citovat abecední a retrográdní slovníky] michalkren
+++ seznamy:abc_seznamy [2016/09/14 13:57] – [Abecední a retrográdní slovníky] michalkren
@@ Řádek 1: / Řádek 1: @@
 ====== Abecední a retrográdní slovníky ======
-Na této stránce najdete seznamy [[pojmy:lemma|lemmat]] a [[pojmy:word|slovních tvarů]] založené na reprezentativních korpusech [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]. Všechny tyto seznamy jsou výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při kterém jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů -- podobné seznamy lze totiž pomocí rozhraní KonText vytvářet z jakéhokoli dostupného korpusu ČNK, navíc s možností rozsáhlé parametrizace; podrobnější informace najdete v [[manualy:kontext:novy_dotaz#seznam_slov|manuálu ke KonTextu]].
+Seznamy [[pojmy:lemma|lemmat]] a [[pojmy:word|slovních tvarů]] na této stránce jsou založené na reprezentativních korpusech [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]. Protože je pro řadu účelů důležité jednotné zpracování všemi relevantními nástroji ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:lemma#lemmatizace]] atd.), byly tyto seznamy odvozeny ze subkorpusů korpusu [[cnk:syn:verze4|SYN verze 4]], které svým [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] původním [[pojmy:referenční|referenčním]] korpusům. Konkrétně jsou tyto seznamy výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při němž jsme se snažili vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů -- podobné seznamy lze totiž snadno vytvářet pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] webového rozhraní KonText z jakéhokoli dostupného korpusu ČNK (příp. jeho subkorpusu), navíc s možností parametrizace.
 Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto:
@@ Řádek 12: / Řádek 12: @@
-Celkový počet souborů se tím tedy zdvojnásobuje, protože každý z výše uvedených seznamů je dostupný v abecední i retrográdní verzi; obě verze se přitom liší pouze tímto výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel.
+Protože je každý z výše uvedených seznamů je dostupný v abecední i retrográdní verzi, celkový počet souborů se tím zdvojnásobil; obě verze se přitom liší pouze výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel.
 ===== Popis údajů ve slovnících =====
-Podobně jako [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] jsou i abecední a retrográdní slovníky uloženy v zazipovaných textových souborech v kódování češtiny UTF-8. Z názvu souboru je zřejmé, zda obsahuje slovní tvary nebo lemmata, na kterém korpusu je založen i jeho setřídění.
+Podobně jako [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] jsou i abecední a retrográdní slovníky uloženy v zazipovaných souborech v kódování češtiny UTF-8. Z názvu souboru je zřejmé, zda obsahuje slovní tvary nebo lemmata, na kterém korpusu je soubor založen i jeho setřídění.
 Každý soubor se skládá ze tří sloupců oddělených tabulátory:
   - sloupec - [[pojmy:rank|rank]] (pořadí podle frekvence; mají-li dvě hesla stejnou frekvenci, je stejný i jejich rank)
   - sloupec - slovní tvar nebo lemma
-  - sloupec - [[pojmy:frekvence|frekvence]] (počet výskytů daného hesla v korpusu)
+  - sloupec - [[pojmy:frekvence|frekvence]]
 ===== Jak citovat abecední a retrográdní slovníky =====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence