Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn:verze4 [2016/08/16 17:21] – [Související odkazy] michalkren | cnk:syn:verze4 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty cvrcek |
---|
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 427 573 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 427 573 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 87 653 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 87 653 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] | 14 097 711 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 14 097 711 | |
^ ::: ^ Počet vět | 275 182 453 | | ^ ::: ^ Počet vět | 275 182 453 | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
</WRAP> | </WRAP> |
| |
Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady [[cnk:syn|SYN]] zveřejněné do doby vzniku dané verze. Korpus SYN verze 4 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také **dosud nezveřejněná publicistika převážně z let 2010–2014** v ročních objemech přesahujících 200 mil. slov. | Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 4 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také **dosud nezveřejněná publicistika převážně z let 2010–2014** v ročních objemech přesahujících 200 mil. slov. |
| |
Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 4 dána součtem jejich velikostí, který činí 3,626 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2014. | Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 4 dána součtem jejich velikostí, který činí 3,626 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2014. |
| |
Korpus SYN verze 4 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc.syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 4 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v4<nowiki>"</nowiki>''. | Korpus SYN verze 4 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_strukturni|strukturní]] a [[pojmy:atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 4 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v4<nowiki>"</nowiki>''. |
| |
====== Složení korpusu SYN verze 4 ====== | ===== Složení korpusu SYN verze 4 ===== |
| |
^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ | ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
^ [[cnk:syn2015|SYN2015]] | 100 mil. | ANO | ANO | 2015 | reprezentativní korpus, převažují texty z let 2010–2014| | ^ [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | reprezentativní korpus, převažují texty z let 2010–2014| |
^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ANO | ANO | 2013 | korpus publicistických textů z let 2005-2009 | | ^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ✓ | ✓ | 2013 | korpus publicistických textů z let 2005-2009 | |
^ [[cnk:syn2010|SYN2010]] | 100 mil. | ANO | ANO | 2010 | reprezentativní korpus, převažují texty z let 2005–2009| | ^ [[cnk:syn2010|SYN2010]] | 100 mil. | ✓ | ✓ | 2010 | reprezentativní korpus, převažují texty z let 2005–2009| |
^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. | ANO | ANO | 2010 | korpus publicistických textů z let 1995–2007 | | ^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. | ✓ | ✓ | 2010 | korpus publicistických textů z let 1995–2007 | |
^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. | ANO | ANO | 2006 | korpus publicistických textů z let 1989–2004| | ^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. | ✓ | ✓ | 2006 | korpus publicistických textů z let 1989–2004| |
^ [[cnk:syn2005|SYN2005]] | 100 mil. | ANO | ANO | 2005 | reprezentativní korpus, převažují texty z let 2000–2004| | ^ [[cnk:syn2005|SYN2005]] | 100 mil. | ✓ | ✓ | 2005 | reprezentativní korpus, převažují texty z let 2000–2004| |
^ [[cnk:syn2000|SYN2000]] | 100 mil. | ANO | ANO | 2000 | reprezentativní korpus, převažují texty z let 1990–1999| | ^ [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | reprezentativní korpus, převažují texty z let 1990–1999| |
| |
Složení publicistické části korpusu SYN verze 4 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport), regionálních deníků (především Deníky Bohemia a Moravia z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (Reflex, Respekt, Týden) v letech 1998--2014; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a bližší pohled na složení publicistické části. | ==== Publicistika v SYN verze 4 ==== |
| |
[{{:cnk:slozeni_syn_v4.jpg?400|Složení korpusu SYN verze 4}}] | |
| |
[{{:cnk:slozeni_syn_v4_pub.jpg?400|Složení publicistické části korpusu SYN verze 4}}] | Složení publicistické části korpusu SYN verze 4 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2014; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. |
| |
===== Pozor na srovnávání korpusů řady SYN ===== | [{{:cnk:slozeni_syn_v4.png?400|Složení korpusu SYN verze 4}}] |
| |
Neustálý vývoj nástrojů, jimiž se korpusy zpracovávají, ztěžuje prosté srovnávání mezi nimi. Vylepšení, kterými zpracování korpusů prošlo od roku 2000, přitom vůbec nejsou zanedbatelná: mnoho nově rozpoznaných slovních tvarů, spolehlivější [[pojmy:desambiguace|desambiguace]] s pravidlovým komponentem, odlišné zpracování některých jazykových jevů, doplnění a sjednocení bibliografických údajů ([[pojmy:atributy_strukturni|strukturní značky]] a [[seznamy:index#zdrojove_texty_psanych_korpusu|zdroje]]) atd. Všechna tato vylepšení přitom nebylo možné promítnout do již zveřejněných korpusů: buď by totiž došlo k nepřijatelnému porušení [[pojmy:referencni|referenčnosti]], nebo by bylo nutné zavést různé verze jednotlivých korpusů, což by ale pro většinu uživatelů bylo nepřehledné. | [{{:cnk:slozeni_syn_v4_pub.png?400|Složení publicistické části korpusu SYN verze 4}}] |
| |
==== Řešením je aktuální SYN ==== | ====== Struktura a anotace korpusu SYN verze 4 ====== |
Kvůli tomu všemu byl vytvořen korpus [[cnk:syn|SYN]], který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:struktura#korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:synchronni|synchronních]] psaných korpusů, které ovšem byly před zařazením do korpusu SYN jednotně zpracovány nejnovějšími nástroji včetně [[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]. U všech zařazených korpusů se tak zpracování dostává na úroveň posledního [[pojmy:referencni|referenčního]] korpusu řady [[cnk:syn#slozeni_korpusu_syn|SYN]], ve verzi 4 tedy [[cnk:syn2015|SYN2015]]. | |
| |
==== Referenční korpusy jako subkorpusy v SYN ==== | Korpus SYN verze 4 se od svého předchůdce, korpusu [[cnk:syn:verze3|SYN verze 3]], výrazně liší ve [[pojmy:atributy_strukturni|strukturaci]] a [[pojmy:anotace|anotaci]] textů, které odpovídají korpusu [[cnk:syn2015|SYN2015]]. Změny se projevují jak převzetím [[cnk:syn2015#struktura_korpusu_a_strukturni_znacky|hierarchie strukturních značek SYN2015]] (např. původní ''<opus>'' byl nahrazen ''<doc>'', nově byl zaveden odstavec ''<p>'' atd.) a jejich atributů (např. původní ''<opus název>'' byl nahrazen ''<doc title>''), tak i [[cnk:klasifikace_textu_syn2015|klasifikace textů SYN2015]], která byla zpětně aplikována na všechny texty obsažené v korpusu SYN verze 4. Jedním z důsledků tohoto rozhodnutí bylo také vyřazení textů (především internetových periodik), které nesplňují [[cnk:syn2015#pojeti_psanosti_v_syn2015|zúžené pojetí psanosti]]. |
Hledání v nově zpracovaných textech všech korpusů řady SYN je doplněno také možností vytváření [[pojmy:subkorpus|subkorpusů]], které svým složením odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu ''<doc.syn>'' (do verze 3 včetně ''<opus.syn>''), takže například subkorpus odpovídající korpusu SYN2005 lze vytvořit zadáním podmínky ''syn=<nowiki>"</nowiki>2005<nowiki>"</nowiki>'' na [[pojmy:atributy_strukturni|značku]] ''<doc>'' (do verze 3 ''<opus>''). Tuto podmínku lze samozřejmě dále kombinovat s dalšími podmínkami omezujícími typ textu, rok vydání apod., jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. **Korpus SYN je tedy možné používat také pro práci se staršími reprezentativními korpusy, v jeho rámci zpracovanými nejnovějšími nástroji.** Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]], ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:token|tokenizaci]]. | |
| |
Jednotlivé verze korpusu SYN jsou **[[pojmy:referencni|referenční]]**, a tedy neměnné a zpětně dostupné. Nové verze korpusu SYN budou počínaje rokem 2016 zveřejňovány v pravidelných ročních intervalech a budou především zahrnovat nové publicistické texty z předchozího roku; součástí aktualizované verze budou samozřejmě také opravy chyb a vylepšení anotace, zejména morfologické analýzy a/nebo [[pojmy:desambiguace|desambiguace]]. Korpus SYN je proto možné charakterizovat jako //spojení všech korpusů řady SYN zpracované nejnovějšími verzemi dostupných nástrojů//. | |
| |
====== Výhody korpusu SYN ====== | |
| |
* přístup k velmi rozsáhlým jazykovým datům (více než 2 mld. slov) | |
* možnost vyhledávání ve všech korpusech řady SYN současně | |
* možnost vytváření subkorpusů odpovídajících původním korpusům | |
* nové zpracování původních korpusů vylepšenými nástroji | |
| |
| |
====== Struktura a anotace korpusu SYN verze 4 ====== | |
| |
Korpus SYN verze 4 odpovídá korpusu [[cnk:syn2015|SYN2015]] jak způsobem zpracování a [[pojmy:atributy_strukturni|strukturace textů]], tak i jejich [[cnk:klasifikace_textu_syn2015|klasifikací]], která byla zpětně aplikována na všechny v něm obsažené texty; výjimkou je pouze [[pojmy:syntakticka_analyza|syntaktická anotace]], která byla nahrazena pilotní verzí [[seznamy:frazemy|anotace frazémů]]. To mj. znamená, že se korpus SYN verze 4 strukturací a anotací textů od svého předchůdce, korpusu SYN verze 3, výrazně liší. | Tato shoda struktury a anotace s korpusem SYN2015 má pouze dvě výjimky: |
| * korpus SYN verze 4 obsahuje navíc atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]]; |
| * podstatnou změnou je nahrazení [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2015 pilotní verzí **[[seznamy:frazemy|anotace frazémů]]**. |
| |
====== Jak citovat SYN verze 4 ====== | ====== Jak citovat SYN verze 4 ====== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 4 z ??. ?. 2016. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupný z WWW: http://www.korpus.cz | Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 4 z 16. 9. 2016//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupný z WWW: http://www.korpus.cz |
| |
| |