Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:syn [2016/08/17 11:10] – [Korpus SYN] michalkren | cnk:syn [2022/12/21 13:08] – [Korpus SYN] michalkren |
---|
====== Korpus SYN ====== | ====== Korpus SYN ====== |
| |
**SYN** je souhrnné označení pro korpus, který obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady [[cnk:syn|SYN]] zveřejněné do doby vzniku dané verze korpusu SYN (například [[cnk:syn:verze3|SYN verze 3]] z roku 2014 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2013pub|SYN2013PUB]], viz následující tabulka) a který je přitom zpracován nejnovějšími verzemi všech nástrojů ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]). | **SYN** je souhrnné označení pro korpus, který obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN zveřejněné do doby vzniku dané verze korpusu SYN (například [[cnk:syn:verze3|SYN verze 3]] z roku 2014 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2013pub|SYN2013PUB]], viz následující tabulka) a který je přitom zpracován nejnovějšími verzemi všech nástrojů ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]). |
| |
Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]], v jeho složení dominují publicistické texty, což je důsledkem jejich snadné dostupnosti. | Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]], v jeho složení dominují publicistické texty, což je důsledkem jejich snadné dostupnosti. |
| |
Korpus SYN je [[pojmy:referencni|referenční]], počínaje verzí 3 zůstávají všechny jeho verze uživatelům neustále zpětně dostupné (je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou od [[cnk:syn:verze4|verze 4]] zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'', která bude rovna verzi korpusu SYN, v níž se daný text objevil poprvé; [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 4 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v4<nowiki>"</nowiki>''. | Korpus SYN je [[pojmy:verzovany|verzovaný]], což znamená, že je [[pojmy:referencni|referenční]] v jednotlivých verzích. Počínaje [[cnk:syn:verze3|verzí 3]] zůstávají všechny jeho verze uživatelům neustále zpětně dostupné (je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN jsou od [[cnk:syn:verze4|verze 4]] zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek je označen hodnotou atributu ''<doc syn>'', která je rovna verzi korpusu SYN, v níž se daný text objevil poprvé; [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 6 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v6<nowiki>"</nowiki>''. |
| |
^ <fs medium>Verze korpusu SYN</fs> ^^^^ | ^ <fs medium>Verze korpusu SYN</fs> ^^^^ |
^ verze ^ rok zveřejnění ^ velikost (počet slov) ^ složení ^ | ^ verze ^ rok zveřejnění ^ velikost (počet slov) ^ složení ^ |
^ [[cnk:syn:verze4|SYN verze 4]] | 2016 | 3 626 mil. | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | | ^ [[cnk:syn:verze11|SYN verze 11]] | 2022 | 5 032 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | |
^ [[cnk:syn:verze3|SYN verze 3]] | 2014 | 2 232 mil. | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]] | | ^ [[cnk:syn:verze10|SYN verze 10]] | 2022 | 4 882 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | |
^ SYN verze 2 | 2010 | 1 300 mil. | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]] | | ^ [[cnk:syn:verze9|SYN verze 9]] | 2021 | 4 719 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | |
^ SYN verze 1 | 2007 | 500 mil. | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]] | | ^ [[cnk:syn:verze8|SYN verze 8]] | 2019 | 4 499 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | |
| ^ [[cnk:syn:verze7|SYN verze 7]] | 2018 | 4 255 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | |
| ^ [[cnk:syn:verze6|SYN verze 6]] | 2017 | 4 033 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | |
| ^ [[cnk:syn:verze5|SYN verze 5]] | 2017 | 3 836 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | |
| ^ [[cnk:syn:verze4|SYN verze 4]] | 2016 | 3 626 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | |
| ^ [[cnk:syn:verze3|SYN verze 3]] | 2014 | 2 232 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]] | |
| ^ SYN verze 2 | 2010 | 1 300 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]] | |
| ^ SYN verze 1 | 2007 | 500 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]] | |
| |
===== Pozor na srovnávání korpusů řady SYN ===== | ===== Pozor na srovnávání korpusů řady SYN ===== |
| |
==== Řešením je aktuální SYN ==== | ==== Řešením je aktuální SYN ==== |
Kvůli tomu všemu byl vytvořen korpus [[SYN]], který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:struktura#korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:synchronni|synchronních]] psaných korpusů, které ovšem byly před zařazením do korpusu SYN jednotně zpracovány nejnovějšími nástroji včetně [[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]. U všech zařazených korpusů se tak zpracování dostává na úroveň posledního [[pojmy:referencni|referenčního]] korpusu řady [[cnk:syn#slozeni_korpusu_syn|SYN]], např. ve verzi 3 tedy [[SYN2013PUB]]. | Proto byl vytvořen korpus SYN, který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:struktura#korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:synchronni|synchronních]] psaných korpusů, ovšem **jednotně anotovaných a zpracovaných nejnovějšími nástroji** včetně [[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]. Pro analýzu jazykového vývoje mezi reprezentativními korpusy řady SYN doporučujeme používat [[seznamy:srovnavaci_seznamy|Srovnávací frekvenční seznamy]], které vycházejí z dat nejnovější verze korpusu SYN a zároveň berou v úvahu rozdílné složení reprezentativních korpusů tak, aby byla zajištěna srovnatelnost lexikálních frekvencí. |
| |
==== Referenční korpusy jako subkorpusy v SYN ==== | ==== Referenční korpusy jako subkorpusy v SYN ==== |
Hledání v nově zpracovaných textech všech korpusů řady SYN je doplněno také | Hledání v nově zpracovaných textech všech korpusů řady SYN je doplněno také možností vytváření [[pojmy:subkorpus|subkorpusů]], které svým složením odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu ''<doc syn>'' (do [[cnk:syn:verze3|SYN verze 3]] ''<opus syn>''), takže například subkorpus odpovídající korpusu SYN2005 lze vytvořit zadáním podmínky ''syn=<nowiki>"</nowiki>2005<nowiki>"</nowiki>'' na [[pojmy:atributy_strukturni|značku]] ''<doc>'' (příp. ''<opus>''). Tuto podmínku lze samozřejmě dále kombinovat s dalšími podmínkami omezujícími typ textu, rok vydání apod., jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. Korpus SYN je tedy možné používat také pro **práci se staršími reprezentativními korpusy**, které jsou ovšem v rámci SYN zpracovány nejnovějšími nástroji. Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]], ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:token|tokenizaci]]. |
možností vytváření [[pojmy:subkorpus|subkorpusů]], které svým složením | |
odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu | |
''<opus syn>'', takže například subkorpus odpovídající korpusu SYN2005 lze | |
vytvořit zadáním podmínky ''syn=<nowiki>"</nowiki>2005<nowiki>"</nowiki>'' na | |
[[pojmy:atributy_strukturni|značku]] ''<opus>''. Tuto podmínku lze samozřejmě | |
dále kombinovat s dalšími podmínkami omezujícími typ textu, rok vydání apod., | |
jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. **Korpus SYN je tedy možné používat také pro práci se staršími reprezentativními korpusy, v jeho rámci zpracovanými nejnovějšími nástroji.** Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]], ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:token|tokenizaci]]. | |
| |
====== Výhody korpusu SYN ====== | ====== Výhody korpusu SYN ====== |
| |
* přístup k velmi rozsáhlým jazykovým datům (více než 3 mld. slov) | * přístup k velmi rozsáhlým jazykovým datům (více než 5 mld. slov) |
* možnost vyhledávání ve všech korpusech řady SYN současně | * možnost vyhledávání ve všech korpusech řady SYN současně |
* možnost vytváření subkorpusů odpovídajících původním korpusům | * možnost vytváření subkorpusů odpovídajících původním korpusům |
* nové zpracování původních korpusů vylepšenými nástroji | * nové zpracování původních korpusů vylepšenými nástroji |
| * [[pojmy:referencni|referenčnost]] |
| |
====== Jak citovat SYN ====== | ====== Jak citovat SYN ====== |
| |
| |
--- //Michal Křen, Olga Richterová// | --- //Michal Křen, Olga Richterová, Michal Škrabal// |
====== Související odkazy ====== | ====== Související odkazy ====== |
<WRAP round box 50%> | <WRAP round box 50%> |
[[cnk:syn:verze3|SYN verze 3]] • [[cnk:syn:verze4|SYN verze 4]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[cnk:syn2015|SYN2015]] | [[cnk:syn:verze3|SYN verze 3]] • [[cnk:syn:verze4|SYN verze 4]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[cnk:syn2015|SYN2015]] |
</WRAP> | </WRAP> |