AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
en:cnk:syn:verze3 [2016/12/11 16:41] – [Related links] veronikapojarovaen:cnk:syn:verze3 [2017/04/21 11:01] (current) – [The composition of the SYN version 3 corpus] michalskrabal
Line 26: Line 26:
 ^ <fs medium>Referential written language corpora (synchronic and general) ordered by date of creation</fs> ^^^^^^ ^ <fs medium>Referential written language corpora (synchronic and general) ordered by date of creation</fs> ^^^^^^
 ^ corpus ^ size (words) ^ [[en:pojmy:lemma|lemmatization]] ^ [[en:pojmy:tag|morphological tags]] ^ publication year ^ corpus description ^ ^ corpus ^ size (words) ^ [[en:pojmy:lemma|lemmatization]] ^ [[en:pojmy:tag|morphological tags]] ^ publication year ^ corpus description ^
-^ [[en:cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  YES  |  YES   2013  | corpus of journalistic texts from the years 2005-2009 | +^ [[en:cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ✓  |  ✓   2013  | corpus of journalistic texts from the years 2005-2009 | 
-^ [[en:cnk:syn2010|SYN2010]] | 100 mil. |  YES  |  YES   2010  | representative corpus, mainly texts from the years  2005–2009| +^ [[en:cnk:syn2010|SYN2010]] | 100 mil. |  ✓  |  ✓   2010  | representative corpus, mainly texts from the years  2005–2009| 
-^ [[en:cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  YES  |  YES   2010  | corpus of journalistic texts from the years 1995–2007 | +^ [[en:cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ✓  |  ✓   2010  | corpus of journalistic texts from the years 1995–2007 | 
-^ [[en:cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  YES  |  YES   2006  | corpus of journalistic texts from the years 1989–2004| +^ [[en:cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ✓  |  ✓   2006  | corpus of journalistic texts from the years 1989–2004| 
-^ [[en:cnk:syn2005|SYN2005]] | 100 mil. |  YES  |  YES   2005  | representative corpus, mainly texts from the years  2000–2004| +^ [[en:cnk:syn2005|SYN2005]] | 100 mil. |  ✓  |  ✓   2005  | representative corpus, mainly texts from the years  2000–2004| 
-^ [[en:cnk:syn2000|SYN2000]] | 100 mil. |  YES  |  YES   2000  | representative corpus, mainly texts from the years 1990–1999|+^ [[en:cnk:syn2000|SYN2000]] | 100 mil. |  ✓  |  ✓   2000  | representative corpus, mainly texts from the years 1990–1999|
  
-Složení publicistické části korpusu SYN verze pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letechúdaje jsou v milionech slovtjpozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu+The composition of the journalistic part of the corpus SYN version covers the production of most of the national daily newspapers (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) and non-specialized magazines (Reflex, Respekt, Týden) between the years 1998--2009. A table containing the 15 titles most represented in the journalistic part of the corpus SYN version 3 (with a layout for the individual yearsthe numbers are in millions of wordsi.e. positions not counting punctuation) can be downloaded belowa preview of the composition of the journalism part can be seen on the following graph
  
 {{:cnk:slozeni_syn_v3.ods|Composition of the journalism part of SYN version 3}} {{:cnk:slozeni_syn_v3.ods|Composition of the journalism part of SYN version 3}}
Line 41: Line 41:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 27. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2014. Available online: http://www.korpus.cz+Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Corpus SYN, version from 27. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2014. Available online: http://www.korpus.cz
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.  Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.