Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:syn:verze4 [2016/08/16 15:51]
Michal Křen [Korpus SYN verze 4]
cnk:syn:verze4 [2017/04/25 18:21] (aktuální)
Michal Křen [Jak citovat SYN verze 4]
Řádek 16: Řádek 16:
 </​WRAP>​ </​WRAP>​
  
-Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy řady [[cnk:​syn|SYN]] zveřejněné do doby vzniku dané verze. Korpus SYN verze 4 tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí také **dosud nezveřejněná publicistika převážně z let 2010–2014** v ročních objemech přesahujících 200 mil. slov.+Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy ​řady SYN (viz popis celé řady [[cnk:​syn|SYN]]zveřejněné do doby vzniku dané verze. Korpus SYN verze 4 tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí také **dosud nezveřejněná publicistika převážně z let 2010–2014** v ročních objemech přesahujících 200 mil. slov.
  
 Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 4 dána součtem jejich velikostí, který činí 3,626 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2014. Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 4 dána součtem jejich velikostí, který činí 3,626 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2014.
  
-Korpus SYN verze 4 je [[pojmy:​referencni|referenční]],​ a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané ​lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<​doc.syn>''​ rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; [[pojmy:​subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 4 [[manualy:​kontext:​subkorpus#​vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''​syn=<​nowiki>"</​nowiki>​v4<​nowiki>"</​nowiki>''​.+Korpus SYN verze 4 je [[pojmy:​referencni|referenční]],​ a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané ​[[pojmy:​atributy_strukturni|strukturní]] a [[pojmy:​atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<​doc syn>''​ rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; ​například ​[[pojmy:​subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 4 [[manualy:​kontext:​subkorpus#​vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''​syn=<​nowiki>"</​nowiki>​v4<​nowiki>"</​nowiki>''​.
  
-====== Složení korpusu SYN verze 4 ======+===== Složení korpusu SYN verze 4 =====
  
 ^ <fs medium>​Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</​fs>​ ^^^^^^ ^ <fs medium>​Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</​fs>​ ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ [[pojmy:​lemma|lemmatizace]] ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ [[pojmy:​lemma|lemmatizace]] ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-^ [[cnk:​syn2015|SYN2015]] | 100 mil. |  ​ANO  ​|  ​ANO  ​| ​ 2015  | reprezentativní korpus, převažují texty z let 2010–2014| +^ [[cnk:​syn2015|SYN2015]] | 100 mil. |  ​✓  ​|  ​✓  ​| ​ 2015  | reprezentativní korpus, převažují texty z let 2010–2014| 
-^ [[cnk:​syn2013PUB|SYN2013PUB]] | 935 mil. |  ​ANO  ​|  ​ANO  ​| ​ 2013  | korpus publicistických textů z let 2005-2009 | +^ [[cnk:​syn2013PUB|SYN2013PUB]] | 935 mil. |  ​✓  ​|  ​✓  ​| ​ 2013  | korpus publicistických textů z let 2005-2009 | 
-^ [[cnk:​syn2010|SYN2010]] | 100 mil. |  ​ANO  ​|  ​ANO  ​| ​ 2010  | reprezentativní korpus, převažují texty z let 2005–2009| +^ [[cnk:​syn2010|SYN2010]] | 100 mil. |  ​✓  ​|  ​✓  ​| ​ 2010  | reprezentativní korpus, převažují texty z let 2005–2009| 
-^ [[cnk:​syn2009PUB|SYN2009PUB]] | 700 mil. |  ​ANO  ​|  ​ANO  ​| ​ 2010  | korpus publicistických textů z let 1995–2007 | +^ [[cnk:​syn2009PUB|SYN2009PUB]] | 700 mil. |  ​✓  ​|  ​✓  ​| ​ 2010  | korpus publicistických textů z let 1995–2007 | 
-^ [[cnk:​syn2006PUB|SYN2006PUB]] | 300 mil. |  ​ANO  ​|  ​ANO  ​| ​ 2006  | korpus publicistických textů z let 1989–2004| +^ [[cnk:​syn2006PUB|SYN2006PUB]] | 300 mil. |  ​✓  ​|  ​✓  ​| ​ 2006  | korpus publicistických textů z let 1989–2004| 
-^ [[cnk:​syn2005|SYN2005]] | 100 mil. |  ​ANO  ​|  ​ANO  ​| ​ 2005  | reprezentativní korpus, převažují texty z let 2000–2004| +^ [[cnk:​syn2005|SYN2005]] | 100 mil. |  ​✓  ​|  ​✓  ​| ​ 2005  | reprezentativní korpus, převažují texty z let 2000–2004| 
-^ [[cnk:​syn2000|SYN2000]] | 100 mil. |  ​ANO  ​|  ​ANO  ​| ​ 2000  | reprezentativní korpus, převažují texty z let 1990–1999|+^ [[cnk:​syn2000|SYN2000]] | 100 mil. |  ​✓  ​|  ​✓  ​| ​ 2000  | reprezentativní korpus, převažují texty z let 1990–1999|
  
-Složení publicistické části korpusu ​SYN verze 4 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport), regionálních deníků (především Deníky Bohemia a Moravia z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (Reflex, Respekt, Týden) v letech 1998--2014; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:​txtype_group|hlavních textových typů]] v jednotlivých letech a bližší pohled na složení publicistické části. ​+==== Publicistika v SYN verze 4 ====
  
-[{{:​cnk:​slozeni_syn_v4.jpg?​400|Složení korpusu SYN verze 4}}] 
  
-[{{:​cnk:​slozeni_syn_v4_pub.jpg?​400|Složení publicistické části korpusu SYN verze 4}}]+Složení publicistické části korpusu SYN verze 4 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2014; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:​txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. ​
  
-===== Pozor na srovnávání korpusů řady SYN =====+[{{:​cnk:​slozeni_syn_v4.png?​400|Složení korpusu ​SYN verze 4}}]
  
-Neustálý vývoj nástrojů, jimiž se korpusy zpracovávají,​ ztěžuje prosté srovnávání mezi nimi. Vylepšení,​ kterými zpracování korpusů prošlo od roku 2000, přitom vůbec nejsou zanedbatelná:​ mnoho nově rozpoznaných slovních tvarů, spolehlivější [[pojmy:desambiguace|desambiguace]] s pravidlovým komponentem,​ odlišné zpracování některých jazykových jevů, doplnění a sjednocení bibliografických údajů ([[pojmy:atributy_strukturni|strukturní značky]] a [[seznamy:​index#​zdrojove_texty_psanych_korpusu|zdroje]]) atd. Všechna tato vylepšení přitom nebylo možné promítnout do již zveřejněných korpusů: buď by totiž došlo k nepřijatelnému porušení [[pojmy:​referencni|referenčnosti]], nebo by bylo nutné zavést různé verze jednotlivých korpusů, což by ale pro většinu uživatelů bylo nepřehledné. ​+[{{:cnk:slozeni_syn_v4_pub.png?​400|Složení ​publicistické ​části korpusu SYN verze 4}}]
  
-==== Řešením je aktuální SYN ==== +====== ​Struktura ​anotace ​korpusu SYN verze ======
-Kvůli tomu všemu byl vytvořen korpus [[cnk:​syn|SYN]],​ který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:​struktura#​korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:​synchronni|synchronních]] psaných korpusů, které ovšem byly před zařazením do korpusu SYN jednotně zpracovány nejnovějšími nástroji včetně [[pojmy:​token|tokenizace]],​ [[pojmy:​segmentace|segmentace]],​ [[pojmy:​morfologicka_analyza|morfologické analýzy]] ​[[pojmy:​desambiguace|desambiguace]]. U všech zařazených korpusů se tak zpracování dostává na úroveň posledního [[pojmy:​referencni|referenčního]] ​korpusu ​řady [[cnk:​syn#​slozeni_korpusu_syn|SYN]], ve verzi tedy [[cnk:​syn2015|SYN2015]].+
  
-==== Referenční korpusy jako subkorpusy v SYN ==== +Korpus ​SYN verze 4 se od svého předchůdce, korpusu [[cnk:​syn:​verze3|SYN verze 3]], výrazně liší ve [[pojmy:atributy_strukturni|strukturaci]] a [[pojmy:​anotace|anotaci]] textů, které odpovídají ​korpusu [[cnk:​syn2015|SYN2015]]. Změny se projevují jak převzetím [[cnk:​syn2015#​struktura_korpusu_a_strukturni_znacky|hierarchie strukturních značek SYN2015]] (např. původní ​''<​opus>'' ​byl nahrazen ​''<​doc>'', ​nově byl zaveden odstavec ​''<​p>'' ​atd.) a jejich atributů (např. původní ​''<​opus název>'' ​byl nahrazen ​''<​doc title>''​), ​tak i [[cnk:klasifikace_textu_syn2015|klasifikace textů SYN2015]], která byla zpětně aplikována na echny texty obsažené v korpusu SYN verze 4Jedním z důsledků tohoto rozhodnutí bylo také vyřazení textů (především internetových periodik), které nesplňují ​[[cnk:syn2015#​pojeti_psanosti_v_syn2015|žené pojetí psanosti]].
-Hledání v nově zpracovaných textech všech korpusů ​řady SYN je doplněno také možností vytváření ​[[pojmy:subkorpus|subkorpusů]], které ​svým složením ​odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu ​''<​doc.syn>'' ​(do verze 3 včetně ​''<​opus.syn>''​)takže například subkorpus odpovídající korpusu SYN2005 lze vytvořit zadáním podmínky ​''​syn=<nowiki>"</​nowiki>​2005<​nowiki>"</​nowiki>'' ​na [[pojmy:​atributy_strukturni|značku]] ​''<​doc>'' ​(do verze 3 ''<​opus>''​). Tuto podmínku lze samozřejmě dále kombinovat s dalšími podmínkami omezujícími typ texturok vydání apod., jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. **Korpus SYN je tedy možné používat také pro práci se staršími reprezentativními korpusy, v jeho rámci zpracovanými nejnovějšími nástroji.** Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]],​ ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:​token|tokenizaci]].+
  
-Jednotlivé verze korpusu SYN jsou **[[pojmy:referencni|referenční]]**, a tedy neměnné a zpětně dostupné. Nové verze korpusu ​SYN budou počínaje rokem 2016 zveřejňovány v pravidelných ročních intervalech a budou především zahrnovat nové publicistické texty z předchozího roku; součástí aktualizované ​verze budou samozřejmě také opravy chyb a vylepšení anotace, zejména morfologické analýzy a/​nebo ​[[pojmy:desambiguace|desambiguace]]. Korpus SYN je proto možné charakterizovat jako //spojení všech korpusů řady SYN zpracované nejnovějšími verzemi dostupných nástrojů//​. +Tato shoda struktury a anotace s korpusem SYN2015 má pouze dvě výjimky: 
- +  ​korpus ​SYN verze 4 obsahuje navíc atribut ''<​doc syn>''​ pro [[cnk:syn#​referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním ​referenčním ​korpusům]]; 
-====== Výhody korpusu SYN ====== +  * podstatnou změnou je nahrazení ​[[pojmy:​syntakticka_analyza|syntaktická anotace]] ​korpusu SYN2015 ​pilotní verzí ​**[[seznamy:​frazemy|anotace frazémů]]**.
- +
-  * přístup k velmi rozsáhlým jazykovým datům (více než 2 mld. slov)     +
-  * možnost vyhledávání ve všech korpusech řady SYN současně +
-  * možnost ​vytváření subkorpusů odpovídajících původním korpusům +
-  * nové zpracování původních korpusů vylepšenými nástroji +
- +
- +
-====== Struktura a anotace korpusu SYN verze 4 ====== +
- +
-Korpus SYN verze 4 odpovídá korpusu [[cnk:​syn2015|SYN2015]] jak způsobem zpracování a [[pojmy:​atributy_strukturni|strukturace textů]], tak i jejich [[cnk:​klasifikace_textu_syn2015|klasifikací]],​ která byla zpětně aplikována na všechny v něm obsažené texty; výjimkou ​je pouze [[pojmy:​syntakticka_analyza|syntaktická anotace]], která byla nahrazena ​pilotní verzí [[seznamy:​frazemy|anotace frazémů]]. To mj. znamená, že se korpus SYN verze 4 strukturací a anotací textů od svého předchůdce,​ korpusu SYN verze 3, výrazně liší.+
  
 ====== Jak citovat SYN verze 4 ====== ====== Jak citovat SYN verze 4 ======
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Čapka, T. – Čermáková,​ A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková,​ D. – Petkevič, V. – Procházka, P. – Skoumalová,​ H. – Škrabal, M. – Truneček, P. – Vondřička,​ P. – Zasina, A.: Korpus SYN, verze 4 z ???. 2016. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupný z WWW: http://​www.korpus.cz+Křen, M. – Cvrček, V. – Čapka, T. – Čermáková,​ A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková,​ D. – Petkevič, V. – Procházka, P. – Skoumalová,​ H. – Škrabal, M. – Truneček, P. – Vondřička,​ P. – Zasina, A.: //Korpus SYN, verze 4 z 169. 2016//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupný z WWW: http://​www.korpus.cz
  
  
Řádek 78: Řádek 65:
 ====== Související odkazy ====== ====== Související odkazy ======
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:​syn2000|SYN2000]] • [[cnk:​syn2005|SYN2005]] • [[cnk:​syn2006pub|SYN2006PUB]] • [[cnk:​syn2009pub|SYN2009PUB]] • [[cnk:​syn2010|SYN2010]] • [[cnk:​SYN2013PUB|SYN2013PUB]]+[[cnk:​syn|SYN]] • [[cnk:​syn:​verze3|SYN verze 3]] • [[cnk:​syn2000|SYN2000]] • [[cnk:​syn2005|SYN2005]] • [[cnk:​syn2006pub|SYN2006PUB]] • [[cnk:​syn2009pub|SYN2009PUB]] • [[cnk:​syn2010|SYN2010]] • [[cnk:​SYN2013PUB|SYN2013PUB]] ​• [[cnk:​syn2015|SYN2015]] 
 </​WRAP>​ </​WRAP>​