~~NOTOC~~ ====== Korpus SYN ====== **SYN** je souhrnné označení pro korpus, který obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN zveřejněné do doby vzniku dané verze korpusu SYN (například [[cnk:syn:verze3|SYN verze 3]] z roku 2014 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2013pub|SYN2013PUB]], viz následující tabulka) a který je přitom zpracován nejnovějšími verzemi všech nástrojů ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]], v jeho složení dominují publicistické texty, což je důsledkem jejich snadné dostupnosti. Korpus SYN je [[pojmy:verzovany|verzovaný]], což znamená, že je [[pojmy:referencni|referenční]] v jednotlivých verzích. Počínaje [[cnk:syn:verze3|verzí 3]] zůstávají všechny jeho verze uživatelům neustále zpětně dostupné (je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN jsou od [[cnk:syn:verze4|verze 4]] zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek je označen hodnotou atributu '''', která je rovna verzi korpusu SYN, v níž se daný text objevil poprvé; [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 6 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn="v6"''. ^ Verze korpusu SYN ^^^^ ^ verze ^ rok zveřejnění ^ velikost (počet slov) ^ složení ^ ^ [[cnk:syn:verze12|SYN verze 12]] | 2023 | 5 175 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | ^ [[cnk:syn:verze11|SYN verze 11]] | 2022 | 5 032 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | ^ [[cnk:syn:verze10|SYN verze 10]] | 2022 | 4 882 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | ^ [[cnk:syn:verze9|SYN verze 9]] | 2021 | 4 719 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | ^ [[cnk:syn:verze8|SYN verze 8]] | 2019 | 4 499 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | ^ [[cnk:syn:verze7|SYN verze 7]] | 2018 | 4 255 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | ^ [[cnk:syn:verze6|SYN verze 6]] | 2017 | 4 033 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | ^ [[cnk:syn:verze5|SYN verze 5]] | 2017 | 3 836 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | ^ [[cnk:syn:verze4|SYN verze 4]] | 2016 | 3 626 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | ^ [[cnk:syn:verze3|SYN verze 3]] | 2014 | 2 232 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]] | ^ SYN verze 2 | 2010 | 1 300 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]] | ^ SYN verze 1 | 2007 | 500 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]] | ===== Pozor na srovnávání korpusů řady SYN ===== Neustálý vývoj nástrojů, jimiž se korpusy zpracovávají, ztěžuje prosté srovnávání mezi nimi. Vylepšení, kterými zpracování korpusů prošlo od roku 2000, přitom vůbec nejsou zanedbatelná: mnoho nově rozpoznaných slovních tvarů, spolehlivější [[pojmy:desambiguace|desambiguace]] s pravidlovým komponentem, odlišné zpracování některých jazykových jevů, doplnění a sjednocení bibliografických údajů ([[pojmy:atributy_strukturni|strukturní značky]] a [[seznamy:index#zdrojove_texty_psanych_korpusu|zdroje]]) atd. Všechna tato vylepšení přitom nebylo možné promítnout do již zveřejněných korpusů: buď by totiž došlo k nepřijatelnému porušení [[pojmy:referencni|referenčnosti]], nebo by bylo nutné zavést různé verze jednotlivých korpusů, což by ale pro většinu uživatelů bylo nepřehledné. ==== Řešením je aktuální SYN ==== Proto byl vytvořen korpus SYN, který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:struktura#korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:synchronni|synchronních]] psaných korpusů, ovšem **jednotně anotovaných a zpracovaných nejnovějšími nástroji** včetně [[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]. Pro analýzu jazykového vývoje mezi reprezentativními korpusy řady SYN doporučujeme používat [[seznamy:srovnavaci_seznamy|Srovnávací frekvenční seznamy]], které vycházejí z dat nejnovější verze korpusu SYN a zároveň berou v úvahu rozdílné složení reprezentativních korpusů tak, aby byla zajištěna srovnatelnost lexikálních frekvencí. ==== Referenční korpusy jako subkorpusy v SYN ==== Hledání v nově zpracovaných textech všech korpusů řady SYN je doplněno také možností vytváření [[pojmy:subkorpus|subkorpusů]], které svým složením odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu '''' (do [[cnk:syn:verze3|SYN verze 3]] ''''), takže například subkorpus odpovídající korpusu SYN2005 lze vytvořit zadáním podmínky ''syn="2005"'' na [[pojmy:atributy_strukturni|značku]] '''' (příp. ''''). Tuto podmínku lze samozřejmě dále kombinovat s dalšími podmínkami omezujícími typ textu, rok vydání apod., jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. Korpus SYN je tedy možné používat také pro **práci se staršími reprezentativními korpusy**, které jsou ovšem v rámci SYN zpracovány nejnovějšími nástroji. Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]], ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:token|tokenizaci]]. ====== Výhody korpusu SYN ====== * přístup k velmi rozsáhlým jazykovým datům (více než 5 mld. slov) * možnost vyhledávání ve všech korpusech řady SYN současně * možnost vytváření subkorpusů odpovídajících původním korpusům * nové zpracování původních korpusů vylepšenými nástroji * [[pojmy:referencni|referenčnost]] ====== Jak citovat SYN ====== Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. --- //Michal Křen, Olga Richterová, Michal Škrabal// ====== Související odkazy ====== [[cnk:syn:verze3|SYN verze 3]] • [[cnk:syn:verze4|SYN verze 4]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[cnk:syn2015|SYN2015]]