AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn [2016/08/16 16:19] – [Korpus SYN] Michal Křencnk:syn [2023/12/29 12:22] (aktuální) – [Korpus SYN] Michal Křen
Řádek 2: Řádek 2:
 ====== Korpus SYN ====== ====== Korpus SYN ======
  
-**Korpus SYN** je souhrnný korpus, který obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady [[cnk:syn|SYN]] zveřejněné do doby vzniku dané verze korpusu SYN (například [[cnk:syn:verze3|SYN verze 3]] z roku 2014 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2013pub|SYN2013PUB]]). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]], v jeho složení dominují publicistické textycož je důsledkem jejich snadné dostupnosti.+**SYN** je souhrnné označení pro korpus, který obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN zveřejněné do doby vzniku dané verze korpusu SYN (například [[cnk:syn:verze3|SYN verze 3]] z roku 2014 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2013pub|SYN2013PUB]], viz následující tabulkaa který je přitom zpracován nejnovějšími verzemi všech nástrojů ([[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]][[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]).
  
-Korpus SYN je zpracováván sadou nejlepších [[pojmy:anotace|nástrojů]] dostupných době jeho vzniku: [[pojmy:token|tokenizace]] (rozdělení textu na slova)[[pojmy:segmentace|segmentace]] (rozpoznávání hranic vět), [[pojmy:morfologicka_analyza|morfologické analýzy]] i [[pojmy:desambiguace|desambiguace]]+Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]v jeho složení dominují publicistické textycož je důsledkem jejich snadné dostupnosti.
  
-Korpus SYN je [[pojmy:referencni|referenční]], počínaje verzí 3 zůstávají všechny jeho verze uživatelům neustále zpětně dostupné (je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou od [[cnk:syn:verze4|verze 4]] zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc.syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v4<nowiki>"</nowiki>''.+Korpus SYN je [[pojmy:verzovany|verzovaný]], což znamená, že je [[pojmy:referencni|referenční]] v jednotlivých verzích. Počínaje [[cnk:syn:verze3|verzí 3]] zůstávají všechny jeho verze uživatelům neustále zpětně dostupné (je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN jsou od [[cnk:syn:verze4|verze 4]] zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek je označen hodnotou atributu ''<doc syn>'', která je rovna verzi korpusu SYN, v níž se daný text objevil poprvé; [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v6<nowiki>"</nowiki>''.
  
-====== Složení korpusu SYN ====== +^ <fs medium>Verze korpusu SYN</fs> ^^^^ 
- +verze ^ rok zveřejnění ^ velikost (počet slov) ^ složení ^ 
-Korpus SYN vzniká sjednocením všech referenčních korpusů psané češtiny, v průběhu času tedy neustále roste. V současné verzi 3 obsahuje tyto korpusy: +^ [[cnk:syn:verze12|SYN verze 12]] |  2023  |  5 175 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika | 
- +^ [[cnk:syn:verze11|SYN verze 11]] |  2022  |  5 032 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika 
-^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ +^ [[cnk:syn:verze10|SYN verze 10]] |  2022  |  4 882 milionů [[SYN2000]][[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika 
-korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ +^ [[cnk:syn:verze9|SYN verze 9]] |  2021  |  4 719 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], [[SYN2020]], další publicistika 
-^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ANO  |  ANO  |  2013  | korpus publicistických textů z let 2005-2009 +^ [[cnk:syn:verze8|SYN verze 8]] |  2019  |  4 499 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika 
-^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ANO  |  ANO   2010  | žánrově vyvážený korpuspřevažují texty z let 2005–2009+^ [[cnk:syn:verze7|SYN verze 7]] |  2018  |  4 255 milionů [[SYN2000]][[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika 
-^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ANO  |  ANO  |  2010  | korpus publicistických textů z let 1995–2007 +^ [[cnk:syn:verze6|SYN verze 6]] |  2017  |  4 033 milionů [[SYN2000]][[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika 
-^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ANO  |  ANO  |  2006  | korpus publicistických textů z let 1989–2004+^ [[cnk:syn:verze5|SYN verze 5]] |  2017  |  3 836 milionů | [[SYN2000]][[SYN2005]][[SYN2006PUB]][[SYN2009PUB]][[SYN2010]][[SYN2013PUB]][[SYN2015]], další publicistika | 
-^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ANO  |  ANO  |  2005  žánrově vyvážený korpuspřevažují texty z let 2000–2004+^ [[cnk:syn:verze4|SYN verze 4]] |  2016  |  626 milionů | [[SYN2000]][[SYN2005]][[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]], [[SYN2015]], další publicistika | 
-^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ANO  |  ANO   2000  | žánrově vyvážený korpuspřevažují texty z let 1990–1999+^ [[cnk:syn:verze3|SYN verze 3]] |  2014  |  2 232 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]], [[SYN2013PUB]] | 
- +^ SYN verze 2 |  2010  |  1 300 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]], [[SYN2009PUB]], [[SYN2010]] | 
-Složení publicistické části korpusu SYN pokrývá po zařazení SYN2013PUB produkci hlavních celostátních deníků (Mladá fronta DNESLidové novinyPrávoHospodářské novinyBlesk) a nespecializovaných časopisů (ReflexRespektTýden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slovtj. pozic bez započtení interpunkce) je možné stáhnout níženáhled složení publicistické části je vidět na následujícím grafu.  +SYN verze 1 |  2007  |  500 milionů | [[SYN2000]], [[SYN2005]], [[SYN2006PUB]] |
- +
-{{:cnk:slozeni_syn_v3.ods|Složení publicistické části korpusu SYN verze 3}} +
-[{{:cnk:slozeni_syn_v3.png?400|Náhled složení publicistické části korpusu SYN verze 3}}]+
  
 ===== Pozor na srovnávání korpusů řady SYN ===== ===== Pozor na srovnávání korpusů řady SYN =====
Řádek 31: Řádek 28:
  
 ==== Řešením je aktuální SYN ==== ==== Řešením je aktuální SYN ====
-Kvůli tomu všemu byl vytvořen korpus [[SYN]], který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:struktura#korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:synchronni|synchronních]] psaných korpusů, které ovšem byly před zařazením do korpusu SYN jednotně zpracovány nejnovějšími nástroji včetně [[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]. U všech zařazených korpusů se tak zpracování dostává na úroveň posledního [[pojmy:referencni|referenčního]] korpusu řady [[cnk:syn#slozeni_korpusu_syn|SYN]]v současné verzi 3 tedy [[SYN2013PUB]].+Proto byl vytvořen korpus SYN, který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:struktura#korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:synchronni|synchronních]] psaných korpusů, ovšem **jednotně anotovaných a zpracovaných nejnovějšími nástroji** včetně [[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]. Pro analýzu jazykového vývoje mezi reprezentativními korpusy řady SYN doporučujeme používat [[seznamy:srovnavaci_seznamy|Srovnávací frekvenční seznamy]], které vycházejí z dat nejnovější verze korpusu SYN a zároveň berou v úvahu rozdílné složení reprezentativních korpusů takaby byla zajištěna srovnatelnost lexikálních frekvencí.
  
 ==== Referenční korpusy jako subkorpusy v SYN ==== ==== Referenční korpusy jako subkorpusy v SYN ====
-Hledání v nově zpracovaných textech všech korpusů řady SYN je doplněno také +Hledání v nově zpracovaných textech všech korpusů řady SYN je doplněno také možností vytváření [[pojmy:subkorpus|subkorpusů]], které svým složením odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu ''<doc syn>'' (do [[cnk:syn:verze3|SYN verze 3]] ''<opus syn>''), takže například subkorpus odpovídající korpusu SYN2005 lze vytvořit zadáním podmínky ''syn=<nowiki>"</nowiki>2005<nowiki>"</nowiki>'' na [[pojmy:atributy_strukturni|značku]] ''<doc>'' (příp. ''<opus>''). Tuto podmínku lze samozřejmě dále kombinovat s dalšími podmínkami omezujícími typ textu, rok vydání apod., jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. Korpus SYN je tedy možné používat také pro **práci se staršími reprezentativními korpusy**které jsou ovšem v rámci SYN zpracovány nejnovějšími nástroji. Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]], ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:token|tokenizaci]].
-možností vytváření [[pojmy:subkorpus|subkorpusů]], které svým složením +
-odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu +
-''<opus.syn>'', takže například subkorpus odpovídající korpusu SYN2005 lze +
-vytvořit zadáním podmínky ''syn=<nowiki>"</nowiki>2005<nowiki>"</nowiki>'' na +
-[[pojmy:atributy_strukturni|značku]] ''<opus>''. Tuto podmínku lze samozřejmě +
-dále kombinovat s dalšími podmínkami omezujícími typ textu, rok vydání apod., +
-jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. **Korpus SYN je tedy možné používat také pro práci se staršími reprezentativními korpusy, v jeho rámci zpracovanými nejnovějšími nástroji.** Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]], ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:token|tokenizaci]]+
- +
-Korpus SYN jakožto **[[pojmy:referencni|nereferenční]]** se v průběhu let mění. Důvody přitom mohou být různé, od zjištění závažných chyb ve stávajícím korpusu, přes výrazné vylepšení morfologické analýzy a/nebo [[pojmy:desambiguace|desambiguace]], až po zahrnutí budoucích synchronních psaných korpusů. Tato aktualizace tedy nebude pravidelná, **nebude k ní však docházet častěji než jednou ročně**. Korpus SYN každopádně stále bude možné charakterizovat jako //nereferenční spojení všech korpusů řady SYN zpracované nejnovějšími verzemi dostupných nástrojů//.+
  
 ====== Výhody korpusu SYN ====== ====== Výhody korpusu SYN ======
  
-  * přístup k velmi rozsáhlým jazykovým datům (více než mld. slov)    +  * přístup k velmi rozsáhlým jazykovým datům (více než mld. slov)
   * možnost vyhledávání ve všech korpusech řady SYN současně   * možnost vyhledávání ve všech korpusech řady SYN současně
   * možnost vytváření subkorpusů odpovídajících původním korpusům   * možnost vytváření subkorpusů odpovídajících původním korpusům
   * nové zpracování původních korpusů vylepšenými nástroji   * nové zpracování původních korpusů vylepšenými nástroji
- +  * [[pojmy:referencni|referenčnost]]
- +
-====== Struktura korpusu SYN ====== +
- +
-Mezi [[pojmy:atributy_strukturni|strukturní značky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. +
-Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]. +
- +
-[{{:cnk:struktur_znacky.jpg?300|Strukturní značky v korpusovem manažeru}}] +
- +
-K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference.+
  
 ====== Jak citovat SYN ====== ====== Jak citovat SYN ======
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 3 z 27. 1. 2014((Doplňte aktuální datum.))//. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz 
- 
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.  Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. 
 </WRAP> </WRAP>
Řádek 72: Řádek 49:
  
  
- --- //Michal Křen, Olga Richterová//+ --- //Michal Křen, Olga Richterová, Michal Škrabal//
 ====== Související odkazy ====== ====== Související odkazy ======
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]]+[[cnk:syn:verze3|SYN verze 3]] • [[cnk:syn:verze4|SYN verze 4]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[cnk:syn2015|SYN2015]]
 </WRAP> </WRAP>