Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:syn2000 [2015/04/14 18:06]
Václav Cvrček Graf slozeni
cnk:syn2000 [2016/02/19 15:12]
Michal Křen [Korpus SYN2000]
Řádek 21: Řádek 21:
 Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů [[SYN2005]] a [[SYN2010]],​ stanoveno na základě výzkumů [[pojmy:​reprezentativnost|recepce]] psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje [[pojmy:​synchronni|současný jazyk]], byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované,​ a tedy na současný jazyk působí. Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů [[SYN2005]] a [[SYN2010]],​ stanoveno na základě výzkumů [[pojmy:​reprezentativnost|recepce]] psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje [[pojmy:​synchronni|současný jazyk]], byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované,​ a tedy na současný jazyk působí.
  
-Korpus SYN2000 je [[pojmy:​lemma|lemmatizovaný]] a morfologicky [[pojmy:​tag|označkovaný]]. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem [[pojmy:​referencni|referenčním]],​ jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít [[seznamy:​index#​zdrojove_texty_korpusu|seznam zdrojových textů]], což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu [[SYN]]; ten lze pomocí [[pojmy:​atributy_strukturni|strukturního atributu]] ''<​opus.syn>''​ snadno navolit tak, aby obsahoval [[cnk:​syn#​referencni_korpusy_jako_subkorpusy_v_syn|právě texty korpusu SYN2000]], ovšem s nejnovější lemmatizací,​ morfologickým značkováním a se snadno dostupnými bibliografickými údaji.+Korpus SYN2000 je [[pojmy:​lemma|lemmatizovaný]] a morfologicky [[pojmy:​tag|označkovaný]]. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem [[pojmy:​referencni|referenčním]],​ jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít [[seznamy:​index#​zdrojove_texty_psanych_korpusu|seznam zdrojových textů]], což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu [[SYN]]; ten lze pomocí [[pojmy:​atributy_strukturni|strukturního atributu]] ''<​opus.syn>''​ snadno navolit tak, aby obsahoval [[cnk:​syn#​referencni_korpusy_jako_subkorpusy_v_syn|právě texty korpusu SYN2000]], ovšem s nejnovější lemmatizací,​ morfologickým značkováním a se snadno dostupnými bibliografickými údaji
 + 
 +Upravenou podobou korpusu SYN2000 s vylepšenou [[pojmy:​lemma|lemmatizací]] je korpus [[cnk:​FSC2000]],​ který posloužil jako zdroj //​Frekvenčního slovníku češtiny//.
  
 ===== Změny v korpusech řady SYN ===== ===== Změny v korpusech řady SYN =====
Řádek 56: Řádek 58:
 ===== Související odkazy ===== ===== Související odkazy =====
 <WRAP round box 49%> <WRAP round box 49%>
-[[cnk:​syn|SYN]] • [[cnk:​SYN2005|SYN2005]] • [[cnk:​syn2006pub|SYN2006PUB]] • [[cnk:​syn2009pub|SYN2009PUB]] • [[cnk:​SYN2010|SYN2010]] • [[cnk:​SYN2013PUB|SYN2013PUB]]+[[cnk:​syn|SYN]] • [[cnk:​FSC2000]] • [[cnk:​SYN2005|SYN2005]] • [[cnk:​syn2006pub|SYN2006PUB]] • [[cnk:​syn2009pub|SYN2009PUB]] • [[cnk:​SYN2010|SYN2010]] • [[cnk:​SYN2013PUB|SYN2013PUB]]
 </​WRAP>​ </​WRAP>​