Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
seznamy:abc_seznamy [2016/09/14 13:57]
Michal Křen [Abecední a retrográdní slovníky]
seznamy:abc_seznamy [2016/09/14 14:18]
Michal Křen [Download]
Řádek 1: Řádek 1:
 ====== Abecední a retrográdní slovníky ====== ====== Abecední a retrográdní slovníky ======
  
-Seznamy ​[[pojmy:​lemma|lemmat]] a [[pojmy:​word|slovních tvarů]] ​na této stránce ​jsou založené na reprezentativních korpusech [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]]. Protože je pro řadu účelů důležité jednotné zpracování všemi relevantními nástroji ([[pojmy:​token|tokenizace]],​ [[pojmy:​segmentace|segmentace]],​ [[pojmy:​lemma#​lemmatizace]] atd.), byly tyto seznamy odvozeny ze subkorpusů korpusu [[cnk:​syn:​verze4|SYN verze 4]], které svým [[cnk:​syn#​referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] původním [[pojmy:​referenční|referenčním]] korpusům. Konkrétně jsou tyto seznamy ​výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:​srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při němž jsme se snažili vyjít vstříc potřebám těch našich uživatelů,​ kteří nejsou příliš zběhlí v používání počítačů -- podobné seznamy lze totiž snadno vytvářet pomocí funkce [[manualy:​kontext:​novy_dotaz#​seznam_slov|Seznam slov]] webového rozhraní KonText z jakéhokoli dostupného korpusu ČNK (příp. jeho subkorpusu),​ navíc s možností parametrizace.+Abecední a retrográdní slovníky ​[[pojmy:​lemma|lemmat]] a [[pojmy:​word|slovních tvarů]] jsou založeny na reprezentativních korpusech [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]]. Protože je pro řadu účelů důležité jednotné zpracování všemi relevantními nástroji ([[pojmy:​token|tokenizace]],​ [[pojmy:​segmentace|segmentace]],​ [[pojmy:​lemma#​lemmatizace]] atd.), byly tyto seznamy odvozeny ze subkorpusů korpusu [[cnk:​syn:​verze4|SYN verze 4]], které svým [[cnk:​syn#​referencni_korpusy_jako_subkorpusy_v_syn|složením odpovídají]] původním [[pojmy:​referenční|referenčním]] korpusům. Konkrétně jsou Abecední a retrográdní slovníky ​výsledkem zkrácení, zjednodušení a přetřídění [[seznamy:​srovnavaci_seznamy|srovnávacích frekvenčních seznamů]], při němž jsme se snažili vyjít vstříc potřebám těch našich uživatelů,​ kteří nejsou příliš zběhlí v používání počítačů -- podobné seznamy lze totiž snadno vytvářet pomocí funkce [[manualy:​kontext:​novy_dotaz#​seznam_slov|Seznam slov]] webového rozhraní KonText z jakéhokoli dostupného korpusu ČNK (příp. jeho subkorpusu),​ navíc s možností parametrizace.
  
 Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto: Každý seznam na této stránce vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto:
Řádek 11: Řádek 11:
   - výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně.   - výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně.
  
 +Protože je každý z výše uvedených seznamů dostupný v abecední i retrográdní verzi, celkový počet souborů se tím zdvojnásobil;​ obě verze se přitom liší pouze výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, seznamy tvarů pak okolo 70 000 hesel.
  
-Protože je každý z výše uvedených seznamů je dostupný v abecední ​retrográdní verzi, celkový počet souborů se tím zdvojnásobil;​ obě verze se přitom liší pouze výsledným tříděním. Seznamy lemmat mají každý necelých 40 000 hesel, ​seznamy ​tvarů pak okolo 70 000 hesel.+**Upozornění**:​ jednotné zpracování samo o sobě nezajišťuje srovnatelnost -- vzhledem k rozdílnému složení reprezentativních korpusů proto přporovnávání lexikálních frekvencí doporučujeme používat [[seznamy:​srovnavaci_seznamy|srovnávací frekvenční seznamy]].
  
 ===== Popis údajů ve slovnících ===== ===== Popis údajů ve slovnících =====
Řádek 31: Řádek 32:
 ===== Download ===== ===== Download =====
  
-**Důležité upozornění**: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu [[cnk:​syn2015|SYN2015]] do [[seznamy:​srovnavaci_seznamy|srovnávacích frekvenčních seznamů]] a s tím spojené použití korpusu [[cnk:​syn:​verze4|SYN verze 4]] jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro abecední a retrográdní slovníky. Důsledkem těchto změn však je, že **nové slovníky nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!+**Upozornění**: tato stránka byla aktualizována v září 2016. Důvodem bylo přidání dat z korpusu [[cnk:​syn2015|SYN2015]] do [[seznamy:​srovnavaci_seznamy|srovnávacích frekvenčních seznamů]] a s tím spojené použití korpusu [[cnk:​syn:​verze4|SYN verze 4]] jako zdroje dat jak pro srovnávací frekvenční seznamy, tak i pro abecední a retrográdní slovníky. Důsledkem těchto změn však je, že **nové slovníky nejsou srovnatelné s původními** staženými z této stránky před její aktualizací!
  
 Abecední a retrográdní slovníky používají kódování češtiny UTF-8. Abecední a retrográdní slovníky používají kódování češtiny UTF-8.