AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze3 [2016/09/15 13:54] – [Související odkazy] Michal Křencnk:syn:verze3 [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty Václav Cvrček (admin)
Řádek 9: Řádek 9:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  5 170 696 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  5 170 696 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] |  49 882 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] |  49 882 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  9 163 021 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] |  9 163 021 |
 ^ ::: ^ Počet vět |  178 499 972 | ^ ::: ^ Počet vět |  178 499 972 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
Řádek 26: Řádek 26:
 ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ANO  |  ANO   2013  | korpus publicistických textů z let 2005-2009 | +^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ✓  |  ✓   2013  | korpus publicistických textů z let 2005-2009 | 
-^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ANO  |  ANO   2010  | reprezentativní korpus, převažují texty z let 2005–2009| +^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ✓  |  ✓   2010  | reprezentativní korpus, převažují texty z let 2005–2009| 
-^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ANO  |  ANO   2010  | korpus publicistických textů z let 1995–2007 | +^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ✓  |  ✓   2010  | korpus publicistických textů z let 1995–2007 | 
-^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ANO  |  ANO   2006  | korpus publicistických textů z let 1989–2004| +^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ✓  |  ✓   2006  | korpus publicistických textů z let 1989–2004| 
-^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ANO  |  ANO   2005  | reprezentativní korpus, převažují texty z let 2000–2004| +^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ✓  |  ✓   2005  | reprezentativní korpus, převažují texty z let 2000–2004| 
-^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ANO  |  ANO   2000  | reprezentativní korpus, převažují texty z let 1990–1999|+^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ✓  |  ✓   2000  | reprezentativní korpus, převažují texty z let 1990–1999|
  
 Složení publicistické části korpusu SYN verze 3 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu.  Složení publicistické části korpusu SYN verze 3 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu. 
Řádek 41: Řádek 41:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 3 z 27. 1. 2014((Doplňte aktuální datum.))//. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz+Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 3 z 27. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.  Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.