Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn2000 [2015/10/22 20:49] – + zmínka o FSC2000 vaclavhorky | cnk:syn2000 [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty cvrcek |
---|
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 763 813 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 763 813 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 891 713 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 891 713 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] ([[pojmy:atributy_strukturni#struktura_korpusu_psane_cestiny|nikoli opusů]]) | 233 797 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] ([[pojmy:atributy_strukturni#struktura_korpusu_psane_cestiny|nikoli opusů]]) | 233 797 | |
^ ::: ^ Počet vět | 7 639 321 | | ^ ::: ^ Počet vět | 7 639 321 | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů [[SYN2005]] a [[SYN2010]], stanoveno na základě výzkumů [[pojmy:reprezentativnost|recepce]] psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje [[pojmy:synchronni|současný jazyk]], byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy na současný jazyk působí. | Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů [[SYN2005]] a [[SYN2010]], stanoveno na základě výzkumů [[pojmy:reprezentativnost|recepce]] psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje [[pojmy:synchronni|současný jazyk]], byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy na současný jazyk působí. |
| |
Korpus SYN2000 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|označkovaný]]. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem [[pojmy:referencni|referenčním]], jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít [[seznamy:index#zdrojove_texty_korpusu|seznam zdrojových textů]], což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu [[SYN]]; ten lze pomocí [[pojmy:atributy_strukturni|strukturního atributu]] ''<opus.syn>'' snadno navolit tak, aby obsahoval [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|právě texty korpusu SYN2000]], ovšem s nejnovější lemmatizací, morfologickým značkováním a se snadno dostupnými bibliografickými údaji. | Korpus SYN2000 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|označkovaný]]. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem [[pojmy:referencni|referenčním]], jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít [[seznamy:index#zdrojove_texty_psanych_korpusu|seznam zdrojových textů]], což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu [[SYN]]; ten lze pomocí [[pojmy:atributy_strukturni|strukturního atributu]] ''<opus.syn>'' snadno navolit tak, aby obsahoval [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|právě texty korpusu SYN2000]], ovšem s nejnovější lemmatizací, morfologickým značkováním a se snadno dostupnými bibliografickými údaji. |
| |
Upravenou podobou korpusu SYN2000 s vylepšenou [[pojmy:lemma|lemmatizací]] je korpus [[cnk:FSC2000]], který posloužil jako zdroj //Frekvenčního slovníku češtiny//. | Upravenou podobou korpusu SYN2000 s vylepšenou [[pojmy:lemma|lemmatizací]] je korpus [[cnk:FSC2000]], který posloužil jako zdroj //Frekvenčního slovníku češtiny//. |