AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze6 [2017/12/11 12:18] – [Korpus SYN verze 6] michalkrencnk:syn:verze6 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty cvrcek
Řádek 5: Řádek 5:
 ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 6</fs> ^ ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 6</fs> ^
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  4 834 739 998 |   ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  4 834 739 998 |  
-^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  4 033 268 842  +^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  4 033 178 647 
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  11 266 270 |   ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  11 266 270 |  
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  8 056 403 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  8 056 403 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  100 159 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  100 159 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] |  15 494 077 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  15 494 077 |
 ^ ::: ^ Počet vět |  307 694 879 | ^ ::: ^ Počet vět |  307 694 879 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
Řádek 38: Řádek 38:
 Složení publicistické části korpusu SYN verze 6 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2016; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části.  Složení publicistické části korpusu SYN verze 6 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2016; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. 
  
-[{{:cnk:slozeni_syn_v5.png?400|Složení korpusu SYN verze 5}}]+[{{:cnk:slozeni_syn_v6.png?400|Složení korpusu SYN verze 6}}]
  
-[{{:cnk:slozeni_syn_v5_pub.png?400|Složení publicistické části korpusu SYN verze 5}}]+[{{:cnk:slozeni_syn_v6_pub.png?400|Složení publicistické části korpusu SYN verze 6}}]
  
 ====== Struktura a anotace korpusu SYN verze 6 ====== ====== Struktura a anotace korpusu SYN verze 6 ======
Řádek 52: Řádek 52:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 244. 2017//FIXME. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz.+Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 1812. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz.
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.