AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze3 [2016/08/15 17:24] – [Korpus SYN] Michal Křencnk:syn:verze3 [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty Václav Cvrček (admin)
Řádek 1: Řádek 1:
 ~~NOTOC~~ ~~NOTOC~~
-====== Korpus SYN ======+====== Korpus SYN verze 3 ======
  
 <WRAP right 35%> <WRAP right 35%>
Řádek 9: Řádek 9:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  5 170 696 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  5 170 696 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] |  49 882 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] |  49 882 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  9 163 021 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] |  9 163 021 |
 ^ ::: ^ Počet vět |  178 499 972 | ^ ::: ^ Počet vět |  178 499 972 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
Řádek 16: Řádek 16:
 </WRAP> </WRAP>
  
-**Korpus SYN** je spojení textů ech [[pojmy:synchronni|synchronních]] [[pojmy:psany|psaných]] korpusů řady [[cnk:syn|SYN]], které konkrétně ve verzi 3 zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2013pub|SYN2013PUB]].+Každý **korpus SYN** obsahuje vždy echny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady [[cnk:syn|SYN]] zveřejněné do doby vzniku dané verze. Korpus SYN verze tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2013pub|SYN2013PUB]].
  
-Protože jsou všechny tyto korpusy navzájem **disjunktní** (tj. každý z nich obsahuje rozdílné texty), je celková velikost korpusu SYN verze 3 dána součtem jejich velikostí, který činí 2,232 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení výrazně převažuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]] a [[cnk:syn2013pub|SYN2013PUB]] v korpusu SYN verze 3.+Protože jsou všechny tyto korpusy navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 3 dána součtem jejich velikostí, který činí 2,232 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]] a [[cnk:syn2013pub|SYN2013PUB]].
  
 Korpus SYN verze 3 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí. Je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá. Korpus SYN verze 3 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí. Je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá.
  
-====== Složení korpusu SYN ====== +====== Složení korpusu SYN verze 3 ======
- +
-Korpus SYN vzniká sjednocením všech referenčních korpusů psané češtiny, v průběhu času tedy neustále roste. V současné verzi 3 obsahuje tyto korpusy:+
  
 ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ANO  |  ANO   2013  | korpus publicistických textů z let 2005-2009 | +^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ✓  |  ✓   2013  | korpus publicistických textů z let 2005-2009 | 
-^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ANO  |  ANO   2010  | žánrově vyvážený korpus, převažují texty z let 2005–2009| +^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ✓  |  ✓   2010  | reprezentativní korpus, převažují texty z let 2005–2009| 
-^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ANO  |  ANO   2010  | korpus publicistických textů z let 1995–2007 | +^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ✓  |  ✓   2010  | korpus publicistických textů z let 1995–2007 | 
-^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ANO  |  ANO   2006  | korpus publicistických textů z let 1989–2004| +^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ✓  |  ✓   2006  | korpus publicistických textů z let 1989–2004| 
-^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ANO  |  ANO   2005  | žánrově vyvážený korpus, převažují texty z let 2000–2004| +^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ✓  |  ✓   2005  | reprezentativní korpus, převažují texty z let 2000–2004| 
-^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ANO  |  ANO   2000  | žánrově vyvážený korpus, převažují texty z let 1990–1999|+^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ✓  |  ✓   2000  | reprezentativní korpus, převažují texty z let 1990–1999|
  
-Složení publicistické části korpusu SYN pokrývá po zařazení SYN2013PUB produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu. +Složení publicistické části korpusu SYN verze 3 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu. 
  
 {{:cnk:slozeni_syn_v3.ods|Složení publicistické části korpusu SYN verze 3}} {{:cnk:slozeni_syn_v3.ods|Složení publicistické části korpusu SYN verze 3}}
 [{{:cnk:slozeni_syn_v3.png?400|Náhled složení publicistické části korpusu SYN verze 3}}] [{{:cnk:slozeni_syn_v3.png?400|Náhled složení publicistické části korpusu SYN verze 3}}]
  
-===== Pozor na srovnávání korpusů řady SYN ===== +====== Jak citovat SYN verze 3 ======
- +
-Neustálý vývoj nástrojů, jimiž se korpusy zpracovávají, ztěžuje prosté srovnávání mezi nimi. Vylepšení, kterými zpracování korpusů prošlo od roku 2000, přitom vůbec nejsou zanedbatelná: mnoho nově rozpoznaných slovních tvarů, spolehlivější [[pojmy:desambiguace|desambiguace]] s pravidlovým komponentem, odlišné zpracování některých jazykových jevů, doplnění a sjednocení bibliografických údajů ([[pojmy:atributy_strukturni|strukturní značky]] a [[seznamy:index#zdrojove_texty_psanych_korpusu|zdroje]]) atd. Všechna tato vylepšení přitom nebylo možné promítnout do již zveřejněných korpusů: buď by totiž došlo k nepřijatelnému porušení [[pojmy:referencni|referenčnosti]], nebo by bylo nutné zavést různé verze jednotlivých korpusů, což by ale pro většinu uživatelů bylo nepřehledné.  +
- +
-==== Řešením je aktuální SYN ==== +
-Kvůli tomu všemu byl vytvořen korpus [[SYN]], který je možné si představit jako jakýsi koláč rozdělený na řadu dílků, tvořený ze všech [[cnk:struktura#korpusy_psane_soucasne_cestiny_rada_syn|obecných]] [[pojmy:synchronni|synchronních]] psaných korpusů, které ovšem byly před zařazením do korpusu SYN jednotně zpracovány nejnovějšími nástroji včetně [[pojmy:token|tokenizace]], [[pojmy:segmentace|segmentace]], [[pojmy:morfologicka_analyza|morfologické analýzy]] a [[pojmy:desambiguace|desambiguace]]. U všech zařazených korpusů se tak zpracování dostává na úroveň posledního [[pojmy:referencni|referenčního]] korpusu řady [[cnk:syn#slozeni_korpusu_syn|SYN]], v současné verzi 3 tedy [[SYN2013PUB]]. +
- +
-==== Referenční korpusy jako subkorpusy v SYN ==== +
-Hledání v nově zpracovaných textech všech korpusů řady SYN je doplněno také +
-možností vytváření [[pojmy:subkorpus|subkorpusů]], které svým složením +
-odpovídají původním referenčním korpusům. To je možné pomocí hodnoty atributu +
-''<opus.syn>'', takže například subkorpus odpovídající korpusu SYN2005 lze +
-vytvořit zadáním podmínky ''syn=<nowiki>"</nowiki>2005<nowiki>"</nowiki>'' na +
-[[pojmy:atributy_strukturni|značku]] ''<opus>''. Tuto podmínku lze samozřejmě +
-dále kombinovat s dalšími podmínkami omezujícími typ textu, rok vydání apod., +
-jak je popsáno v [[kurz:pokrocile_dotazy|Kurzu práce s ČNK]]. **Korpus SYN je tedy možné používat také pro práci se staršími reprezentativními korpusy, v jeho rámci zpracovanými nejnovějšími nástroji.** Při srovnávání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy i dosti podstatné změny způsobené rozdíly ve zpracování. Jde o změny způsobené nejenom odlišnou [[pojmy:lemma|lemmatizací]], ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno změnami v [[pojmy:token|tokenizaci]]. +
- +
-Korpus SYN jakožto **[[pojmy:referencni|nereferenční]]** se v průběhu let mění. Důvody přitom mohou být různé, od zjištění závažných chyb ve stávajícím korpusu, přes výrazné vylepšení morfologické analýzy a/nebo [[pojmy:desambiguace|desambiguace]], až po zahrnutí budoucích synchronních psaných korpusů. Tato aktualizace tedy nebude pravidelná, **nebude k ní však docházet častěji než jednou ročně**. Korpus SYN každopádně stále bude možné charakterizovat jako //nereferenční spojení všech korpusů řady SYN zpracované nejnovějšími verzemi dostupných nástrojů//+
- +
-====== Výhody korpusu SYN ====== +
- +
-  * přístup k velmi rozsáhlým jazykovým datům (více než 2 mld. slov)     +
-  * možnost vyhledávání ve všech korpusech řady SYN současně +
-  * možnost vytváření subkorpusů odpovídajících původním korpusům +
-  * nové zpracování původních korpusů vylepšenými nástroji +
- +
- +
-====== Struktura korpusu SYN ====== +
- +
-Mezi [[pojmy:atributy_strukturni|strukturní značky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. +
-Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]. +
- +
-[{{:cnk:struktur_znacky.jpg?300|Strukturní značky v korpusovem manažeru}}] +
- +
-K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference. +
- +
-====== Jak citovat SYN ======+
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 3 z 27. 1. 2014((Doplňte aktuální datum.))//. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz+Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 3 z 27. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.  Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. 
Řádek 89: Řádek 51:
 ====== Související odkazy ====== ====== Související odkazy ======
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]]+[[cnk:syn|SYN]] • [[cnk:syn:verze4|SYN verze 4]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[cnk:syn2015|SYN2015]]
 </WRAP> </WRAP>