Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
cnk:syn2015 [2016/05/31 17:48]
Michal Křen [Jak citovat SYN2015]
cnk:syn2015 [2016/10/17 13:14]
Michal Křen [Korpus SYN2015]
Řádek 2: Řádek 2:
 ====== Korpus SYN2015 ====== ====== Korpus SYN2015 ======
  
-Korpus SYN2015 je [[pojmy:​synchronni|synchronní]] [[pojmy:​reprezentativnost|reprezentativní]] a [[pojmy:​referencni#​referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:​psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:​token|tokenů]]). Navazuje na předchozí korpusy [[cnk:​syn|řady SYN]] ([[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]] a [[cnk:​syn2010|SYN2010]]),​ vydávané v pětiletých intervalech,​ a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění;​ SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:​lemma|lemmatizovaný]] a morfologicky [[pojmy:​tag|tagovaný]],​ ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti,​ upravena a rozšířena [[cnk:​klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. ​+Korpus SYN2015 je [[pojmy:​synchronni|synchronní]] [[pojmy:​reprezentativnost|reprezentativní]] a [[pojmy:​referencni#​referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:​psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:​token|tokenů]]). Navazuje na předchozí korpusy [[cnk:​syn|řady SYN]] ([[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]] a [[cnk:​syn2010|SYN2010]]),​ vydávané v pětiletých intervalech,​ a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění;​ SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:​lemma|lemmatizovaný]] a morfologicky [[pojmy:​tag|tagovaný]],​ ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti,​ upravena a rozšířena [[cnk:​klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[pojmy:syntakticka_analyza|syntaktické anotace]]. ​