AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2000 [2013/12/08 22:58] – [Změny v následujících korpusech řady SYN] michalkrencnk:syn2000 [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty cvrcek
Řádek 8: Řádek 8:
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 763 813 |   ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 763 813 |  
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 891 713 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 891 713 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] ([[pojmy:atributy_strukturni#struktura_korpusu_psane_cestiny|nikoli opusů]]) | 233 797 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] ([[pojmy:atributy_strukturni#struktura_korpusu_psane_cestiny|nikoli opusů]]) | 233 797 |
 ^ ::: ^ Počet vět | 7 639 321 | ^ ::: ^ Počet vět | 7 639 321 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |   ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |  
Řádek 17: Řádek 17:
 Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazyku v českých zemích byl ještě takříkajíc v plenkách. Jedná se o vůbec první korpus psané češtiny, který vznikl v rámci projektu ČNK a který byl vytvořen jako [[pojmy:referencni|referenční]] a neměnná entita [[pojmy:reprezentativnost|reprezentující]] stav jazyka v roce 2000. Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazyku v českých zemích byl ještě takříkajíc v plenkách. Jedná se o vůbec první korpus psané češtiny, který vznikl v rámci projektu ČNK a který byl vytvořen jako [[pojmy:referencni|referenční]] a neměnná entita [[pojmy:reprezentativnost|reprezentující]] stav jazyka v roce 2000.
  
-Inspirací korpusu SYN2000 byl [[wp>British_National_Corpus|British National Corpus]], práce na BNC však ustaly v roce 1994.+Inspirací korpusu SYN2000 byl [[wp>British_National_Corpus|British National Corpus]], práce na BNC však ustaly v roce 1994. 
  
 Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů [[SYN2005]] a [[SYN2010]], stanoveno na základě výzkumů [[pojmy:reprezentativnost|recepce]] psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje [[pojmy:synchronni|současný jazyk]], byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy na současný jazyk působí. Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů [[SYN2005]] a [[SYN2010]], stanoveno na základě výzkumů [[pojmy:reprezentativnost|recepce]] psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje [[pojmy:synchronni|současný jazyk]], byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy na současný jazyk působí.
  
-Korpus SYN2000 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|označkovaný]]. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem [[pojmy:referencni|referenčním]], jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít [[seznamy:index#zdrojove_texty_korpusu|seznam zdrojových textů]], což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu [[SYN]]; ten lze pomocí [[pojmy:atributy_strukturni|strukturního atributu]] ''<opus.syn>'' snadno navolit tak, aby obsahoval [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|právě texty korpusu SYN2000]], ovšem s nejnovější lemmatizací, morfologickým značkováním a se snadno dostupnými bibliografickými údaji.+Korpus SYN2000 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|označkovaný]]. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem [[pojmy:referencni|referenčním]], jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít [[seznamy:index#zdrojove_texty_psanych_korpusu|seznam zdrojových textů]], což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu [[SYN]]; ten lze pomocí [[pojmy:atributy_strukturni|strukturního atributu]] ''<opus.syn>'' snadno navolit tak, aby obsahoval [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|právě texty korpusu SYN2000]], ovšem s nejnovější lemmatizací, morfologickým značkováním a se snadno dostupnými bibliografickými údaji.
  
-===== Změny v následujících korpusech řady SYN =====+Upravenou podobou korpusu SYN2000 s vylepšenou [[pojmy:lemma|lemmatizací]] je korpus [[cnk:FSC2000]], který posloužil jako zdroj //Frekvenčního slovníku češtiny//
 + 
 +===== Změny v korpusech řady SYN =====
  
 Upozorňujeme na výrazné změny ve složení i způsobu zpracování mezi korpusy SYN2000 a [[SYN2005]] (a tedy také SYN2000 a [[SYN2010]]), které jsou shrnuty na stránce věnované korpusu [[cnk:syn2005#zmeny_oproti_korpusu_syn2000|SYN2005]]. Důsledkem těchto změn je mj. přímá nesrovnatelnost frekvenčních údajů (viz [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]]). Upozorňujeme na výrazné změny ve složení i způsobu zpracování mezi korpusy SYN2000 a [[SYN2005]] (a tedy také SYN2000 a [[SYN2010]]), které jsou shrnuty na stránce věnované korpusu [[cnk:syn2005#zmeny_oproti_korpusu_syn2000|SYN2005]]. Důsledkem těchto změn je mj. přímá nesrovnatelnost frekvenčních údajů (viz [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]]).
  
-Proměnu v pojetí [[pojmy:reprezentativnost|reprezentativnosti]] korpusu, z níž vyplývají [[cnk:syn2005#novy_pristup_k_reprezentativnosti_slozeni_korpusu|významné rozdíly]] ve složení ve srovnání s následujícími korpusy řady SYN, je vidět na následující tabulce srovnávající složení korpusů [[SYN2000]] [[SYN2005]] po [[pojmy:txtype_group|hlavních textových typech]].+Proměnu v pojetí [[pojmy:reprezentativnost|reprezentativnosti]] korpusu, z níž vyplývají [[cnk:syn2005#novy_pristup_k_reprezentativnosti_slozeni_korpusu|významné rozdíly]] ve složení ve srovnání s následujícími korpusy řady SYN, je vidět na následující tabulce srovnávající složení korpusů SYN2000 a SYN2005 po [[pojmy:txtype_group|hlavních textových typech]].
  
 | ^ SYN2005 ^ SYN2000 ^ | ^ SYN2005 ^ SYN2000 ^
Řádek 36: Řádek 38:
 ==== Složení korpusu SYN2000 ==== ==== Složení korpusu SYN2000 ====
  
-**[[grafy]]**+{{:cnk:syn2000-slozeni.png?direct&400|Složení korpusu SYN2000 na nejobecnější úrovni textové klasifikace}}
  
  
 ===== Struktura korpusu SYN2000 ===== ===== Struktura korpusu SYN2000 =====
  
-Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<doc>'' a ''<s>'', tedy dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Zobrazit si je můžete v položce menu [[cnk:rozhranixx#menu...|Možnosti zobrazení]]. V následujících korpusech řady SYN přibyla ještě hierarchicky nejvyšší struktura ''<opus>'' (tento rozdíl je velmi důležitý např. při vyhledávání pomocí podmínek ''within'').+Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<doc>'' a ''<s>'', tedy dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]. V následujících korpusech řady SYN přibyla ještě hierarchicky nejvyšší struktura ''<opus>'' (tento rozdíl je velmi důležitý např. při vyhledávání pomocí podmínek ''within'').
  
 [{{ :cnk:strukturni_znacky_syn2000.jpg?300 |Strukturní jednotky v korpusu SYN2000.}}] [{{ :cnk:strukturni_znacky_syn2000.jpg?300 |Strukturní jednotky v korpusu SYN2000.}}]
Řádek 48: Řádek 50:
  
 ===== Jak citovat SYN2000 ===== ===== Jak citovat SYN2000 =====
-<WRAP round tip 30%> + 
-//Český národní korpus - SYN2000//. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: <http://www.korpus.cz>. +<WRAP round tip 70%> 
-[[Michal Křen]]+Čermák, F. – Blatná, R. – Hlaváčová, J. – Klímová, J. – Kocek, J. – Kopřivová, M. – Křen, M. – Petkevič, V. – Schmiedtová, V. – Šulc, M.: //SYN2000: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: http://www.korpus.cz
 </WRAP> </WRAP>
  
 --- //Michal Křen, Olga Richterová// --- //Michal Křen, Olga Richterová//
- 
 ===== Související odkazy ===== ===== Související odkazy =====
 <WRAP round box 49%> <WRAP round box 49%>
-[[cnk:syn|SYN]] • [[cnk:SYN2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:SYN2010|SYN2010]]+[[cnk:syn|SYN]] • [[cnk:FSC2000]] • [[cnk:SYN2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:SYN2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]]
 </WRAP> </WRAP>