Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:syn:verze5 [2017/04/25 13:02]
Michal Škrabal [Korpus SYN verze 5]
cnk:syn:verze5 [2017/04/26 16:34] (aktuální)
Michal Křen [Složení korpusu SYN verze 5]
Řádek 5: Řádek 5:
 ^ <fs medium>​Název</​fs>​ ^^ <fs medium>​SYN verze 5</​fs>​ ^ ^ <fs medium>​Název</​fs>​ ^^ <fs medium>​SYN verze 5</​fs>​ ^
 ^ [[pojmy:​atributy_pozicni|Pozice]] ^ Počet [[pojmy:​token|pozic (tokenů)]] |  4 599 643 984 |  ​ ^ [[pojmy:​atributy_pozicni|Pozice]] ^ Počet [[pojmy:​token|pozic (tokenů)]] |  4 599 643 984 |  ​
-^ ::: ^ Počet [[pojmy:​token|pozic (tokenů) bez interpunkce ]] |  3 626 417 275 FIXME |  ​+^ ::: ^ Počet [[pojmy:​token|pozic (tokenů) bez interpunkce ]] |  3 836 208 873 |  ​
 ^ ::: ^ Počet [[pojmy:​word|slovních tvarů (wordů)]] |  10 925 890 |  ​ ^ ::: ^ Počet [[pojmy:​word|slovních tvarů (wordů)]] |  10 925 890 |  ​
 ^ ::: ^ Počet [[pojmy:​lemma|lemmat]] |  7 770 263 | ^ ::: ^ Počet [[pojmy:​lemma|lemmat]] |  7 770 263 |
Řádek 16: Řádek 16:
 </​WRAP>​ </​WRAP>​
  
-Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:​syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí také **dosud nezveřejněná publicistika ​převážně ​let 2010–2014** v ročních objemech ​esahujících ​200 mil. slov.+Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:​syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí ​také publicistika z let 2010–2014,​ která je již součástí korpusu [[cnk:​syn:​verze4|SYN verze 4]], a také **dosud nezveřejněná publicistika z roku 2015** v objemu ​esahujícím ​200 mil. slov.
  
-Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 5 dána součtem jejich velikostí, který činí ​FIXME 3,626 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2015.+Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 5 dána součtem jejich velikostí, který činí 3,836 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2015.
  
 Korpus SYN verze 5 je [[pojmy:​referencni|referenční]],​ a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:​atributy_strukturni|strukturní]] a [[pojmy:​atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<​doc syn>''​ rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:​subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 5 [[manualy:​kontext:​subkorpus#​vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''​syn=<​nowiki>"</​nowiki>​v5<​nowiki>"</​nowiki>''​. Korpus SYN verze 5 je [[pojmy:​referencni|referenční]],​ a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:​atributy_strukturni|strukturní]] a [[pojmy:​atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<​doc syn>''​ rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:​subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 5 [[manualy:​kontext:​subkorpus#​vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''​syn=<​nowiki>"</​nowiki>​v5<​nowiki>"</​nowiki>''​.
Řádek 26: Řádek 26:
 ^ <fs medium>​Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</​fs>​ ^^^^^^ ^ <fs medium>​Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</​fs>​ ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ [[pojmy:​lemma|lemmatizace]] ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ [[pojmy:​lemma|lemmatizace]] ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-^ [[cnk:​syn2015|??? FIXME ]] | FIXME 100 mil.  ✓  |  ✓  |  2017  | korpus publicistických textů z roku 2015| +^ [[cnk:​syn2015|SYN2015]] |  100 mil.  |  ✓  |  ✓  |  2015  | reprezentativní korpus, převažují texty z let 2010–2014| 
-^ [[cnk:​syn2015|SYN2015]] | 100 mil. |  ✓  |  ✓  |  2015  | reprezentativní korpus, převažují texty z let 2010–2014| +^ [[cnk:​syn2013PUB|SYN2013PUB]] |  935 mil.  |  ✓  |  ✓  |  2013  | korpus publicistických textů z let 2005–2009 | 
-^ [[cnk:​syn2013PUB|SYN2013PUB]] | 935 mil. |  ✓  |  ✓  |  2013  | korpus publicistických textů z let 2005–2009 | +^ [[cnk:​syn2010|SYN2010]] |  100 mil.  |  ✓  |  ✓  |  2010  | reprezentativní korpus, převažují texty z let 2005–2009| 
-^ [[cnk:​syn2010|SYN2010]] | 100 mil. |  ✓  |  ✓  |  2010  | reprezentativní korpus, převažují texty z let 2005–2009| +^ [[cnk:​syn2009PUB|SYN2009PUB]] |  700 mil.  |  ✓  |  ✓  |  2010  | korpus publicistických textů z let 1995–2007 | 
-^ [[cnk:​syn2009PUB|SYN2009PUB]] | 700 mil. |  ✓  |  ✓  |  2010  | korpus publicistických textů z let 1995–2007 | +^ [[cnk:​syn2006PUB|SYN2006PUB]] |  300 mil.  |  ✓  |  ✓  |  2006  | korpus publicistických textů z let 1989–2004| 
-^ [[cnk:​syn2006PUB|SYN2006PUB]] | 300 mil. |  ✓  |  ✓  |  2006  | korpus publicistických textů z let 1989–2004| +^ [[cnk:​syn2005|SYN2005]] |  100 mil.  |  ✓  |  ✓  |  2005  | reprezentativní korpus, převažují texty z let 2000–2004| 
-^ [[cnk:​syn2005|SYN2005]] | 100 mil. |  ✓  |  ✓  |  2005  | reprezentativní korpus, převažují texty z let 2000–2004| +^ [[cnk:​syn2000|SYN2000]] |  100 mil.  |  ✓  |  ✓  |  2000  | reprezentativní korpus, převažují texty z let 1990–1999|
-^ [[cnk:​syn2000|SYN2000]] | 100 mil. |  ✓  |  ✓  |  2000  | reprezentativní korpus, převažují texty z let 1990–1999|+
  
 ==== Publicistika v SYN verze 5 ==== ==== Publicistika v SYN verze 5 ====
  
-Složení publicistické části korpusu SYN verze 5 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2015; celkový počet publicistických titulů je 176 FIXME. Následující grafy ukazují složení korpusu SYN podle [[pojmy:​txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. ​+Složení publicistické části korpusu SYN verze 5 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2015; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:​txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. ​
  
-[{{:cnk:slozeni_syn_v4.png?​400|Složení korpusu SYN verze 5}}]+[{{:cnk:slozeni_syn_v5.png?​400|Složení korpusu SYN verze 5}}]
  
-[{{:cnk:slozeni_syn_v4_pub.png?​400|Složení publicistické části korpusu SYN verze 5}}] +[{{:cnk:slozeni_syn_v5_pub.png?​400|Složení publicistické části korpusu SYN verze 5}}]
- +
-FIXME+
  
 ====== Struktura a anotace korpusu SYN verze 5 ====== ====== Struktura a anotace korpusu SYN verze 5 ======
Řádek 56: Řádek 53:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Čapka, T. – Čermáková,​ A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková,​ D. – Petkevič, V. – Procházka, P. – Skoumalová,​ H. – Škrabal, M. – Truneček, P. – Vondřička,​ P. – Zasina, A.: Korpus SYN, verze 5 z 24. 4. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://​www.korpus.cz.+Křen, M. – Cvrček, V. – Čapka, T. – Čermáková,​ A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková,​ D. – Petkevič, V. – Procházka, P. – Skoumalová,​ H. – Škrabal, M. – Truneček, P. – Vondřička,​ P. – Zasina, A.: //Korpus SYN, verze 5 z 24. 4. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://​www.korpus.cz.
  
-Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová,​ H. (2014): [[http://​www.lrec-conf.org/​proceedings/​lrec2014/​pdf/​294_Paper.pdf|The SYN-series corpora of written Czech]]. In //​Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'​14)//,​ 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. ​ +Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová,​ H. (2014): [[http://​www.lrec-conf.org/​proceedings/​lrec2014/​pdf/​294_Paper.pdf|The SYN-series corpora of written Czech]]. In //​Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'​14)//,​ 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
-FIXME nechat?+
 </​WRAP>​ </​WRAP>​
  
Řádek 66: Řádek 62:
 ====== Související odkazy ====== ====== Související odkazy ======
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:​syn|SYN]] • [[cnk:​syn:​verze3|SYN verze 3]] • [[cnk:​syn2000|SYN2000]] • [[cnk:​syn2005|SYN2005]] • [[cnk:​syn2006pub|SYN2006PUB]] • [[cnk:​syn2009pub|SYN2009PUB]] • [[cnk:​syn2010|SYN2010]] • [[cnk:​SYN2013PUB|SYN2013PUB]] • [[cnk:​syn2015|SYN2015]]+[[cnk:​syn|SYN]] • [[cnk:​syn:​verze4|SYN verze 4]]• [[cnk:​syn:​verze3|SYN verze 3]] • [[cnk:​syn2000|SYN2000]] • [[cnk:​syn2005|SYN2005]] • [[cnk:​syn2006pub|SYN2006PUB]] • [[cnk:​syn2009pub|SYN2009PUB]] • [[cnk:​syn2010|SYN2010]] • [[cnk:​SYN2013PUB|SYN2013PUB]] • [[cnk:​syn2015|SYN2015]]
  
 </​WRAP>​ </​WRAP>​