AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
en:cnk:syn:verze3 [2016/12/11 16:30] – created veronikapojarovaen:cnk:syn:verze3 [2017/04/21 11:01] (current) – [The composition of the SYN version 3 corpus] michalskrabal
Line 18: Line 18:
 Every **SYN corpus** contains all the [[en:pojmy:synchronni|synchronic]] [[en:pojmy:psany|written]] corpora of the [[en:cnk:syn|SYN]] series published up until the time of the given version's publication. The corpus SYN version 3 therefore contains the corpora  [[en:cnk:syn2000|SYN2000]], [[en:cnk:syn2005|SYN2005]], [[en:cnk:syn2006pub|SYN2006PUB]], [[en:cnk:syn2009pub|SYN2009PUB]], [[en:cnk:syn2010|SYN2010]] and [[en:cnk:syn2013pub|SYN2013PUB]]. Every **SYN corpus** contains all the [[en:pojmy:synchronni|synchronic]] [[en:pojmy:psany|written]] corpora of the [[en:cnk:syn|SYN]] series published up until the time of the given version's publication. The corpus SYN version 3 therefore contains the corpora  [[en:cnk:syn2000|SYN2000]], [[en:cnk:syn2005|SYN2005]], [[en:cnk:syn2006pub|SYN2006PUB]], [[en:cnk:syn2009pub|SYN2009PUB]], [[en:cnk:syn2010|SYN2010]] and [[en:cnk:syn2013pub|SYN2013PUB]].
  
-Protože jsou všechny tyto korpusy navzájem **disjunktní** (tjneobsahují stejné texty), je celková velikost korpusu SYN verze dána součtem jejich velikostíkterý činí 2,232 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistikacož je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]] [[cnk:syn2013pub|SYN2013PUB]].+Because all of these corpora are **disjunctive** (i.ethey do not contain the same texts), the total size of the SYN version is given by their sumwhich makes 2,232 billion words ([[en:pojmy:token|tokens]] without punctuation). The SYN corpus is not  [[en:pojmy:reprezentativnost|representative]]; the dominant component is journalismwhich is the result of the predominance of journalistic corpora [[en:cnk:syn2006pub|SYN2006PUB]], [[en:cnk:syn2009pub|SYN2009PUB]] and [[en:cnk:syn2013pub|SYN2013PUB]].
  
-Korpus SYN verze je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzíJe ovšem třeba upozornit na postupné zastarávání dodané lingvistické informacekteré z referenčnosti zákonitě vyplývá.+The SYN version corpus is [[en:pojmy:referencni|referential]],and will remain accessible to users even after newer versions have been publishedIt is however necessary to keep in mind that the linguistic information will become outdatedas a natural result of the referential nature of the corpus.
  
-====== Složení korpusu SYN verze 3 ======+====== The composition of the SYN version corpus ======
  
-^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecnév pořadí podle doby vzniku</fs> ^^^^^^ +^ <fs medium>Referential written language corpora (synchronic and generalordered by date of creation</fs> ^^^^^^ 
-korpus velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění charakteristika korpusu +corpus size (words) ^ [[en:pojmy:lemma|lemmatization]] ^ [[en:pojmy:tag|morphological tags]] ^ publication year corpus description 
-^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ANO  |  ANO   2013  | korpus publicistických textů z let 2005-2009 | +^ [[en:cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ✓  |  ✓   2013  | corpus of journalistic texts from the years 2005-2009 | 
-^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ANO  |  ANO   2010  | reprezentativní korpuspřevažují texty z let 2005–2009| +^ [[en:cnk:syn2010|SYN2010]] | 100 mil. |  ✓  |  ✓   2010  | representative corpusmainly texts from the years  2005–2009| 
-^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ANO  |  ANO   2010  | korpus publicistických textů z let 1995–2007 | +^ [[en:cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ✓  |  ✓   2010  | corpus of journalistic texts from the years 1995–2007 | 
-^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ANO  |  ANO   2006  | korpus publicistických textů z let 1989–2004| +^ [[en:cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ✓  |  ✓   2006  | corpus of journalistic texts from the years 1989–2004| 
-^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ANO  |  ANO   2005  | reprezentativní korpuspřevažují texty z let 2000–2004| +^ [[en:cnk:syn2005|SYN2005]] | 100 mil. |  ✓  |  ✓   2005  | representative corpusmainly texts from the years  2000–2004| 
-^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ANO  |  ANO   2000  | reprezentativní korpuspřevažují texty z let 1990–1999|+^ [[en:cnk:syn2000|SYN2000]] | 100 mil. |  ✓  |  ✓   2000  | representative corpusmainly texts from the years 1990–1999|
  
-Složení publicistické části korpusu SYN verze pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letechúdaje jsou v milionech slovtjpozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu+The composition of the journalistic part of the corpus SYN version covers the production of most of the national daily newspapers (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) and non-specialized magazines (Reflex, Respekt, Týden) between the years 1998--2009. A table containing the 15 titles most represented in the journalistic part of the corpus SYN version 3 (with a layout for the individual yearsthe numbers are in millions of wordsi.e. positions not counting punctuation) can be downloaded belowa preview of the composition of the journalism part can be seen on the following graph
  
 {{:cnk:slozeni_syn_v3.ods|Composition of the journalism part of SYN version 3}} {{:cnk:slozeni_syn_v3.ods|Composition of the journalism part of SYN version 3}}
Line 41: Line 41:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 27. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2014. Available online: http://www.korpus.cz+Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Corpus SYN, version from 27. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2014. Available online: http://www.korpus.cz
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.  Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. 
Line 52: Line 52:
 ====== Related links ====== ====== Related links ======
 <WRAP round box 50%> <WRAP round box 50%>
-[[en:cnk:syn|SYN]] • [[en:cnk:syn:verze4|SYN verze 4]] • [[en:cnk:syn2000|SYN2000]] • [[en:cnk:syn2005|SYN2005]] • [[en:cnk:syn2006pub|SYN2006PUB]] • [[en:cnk:syn2009pub|SYN2009PUB]] • [[en:cnk:syn2010|SYN2010]] • [[en:cnk:SYN2013PUB|SYN2013PUB]] • [[en:cnk:syn2015|SYN2015]]+[[en:cnk:syn|SYN]] • [[en:cnk:syn:verze4|SYN version 4]] • [[en:cnk:syn2000|SYN2000]] • [[en:cnk:syn2005|SYN2005]] • [[en:cnk:syn2006pub|SYN2006PUB]] • [[en:cnk:syn2009pub|SYN2009PUB]] • [[en:cnk:syn2010|SYN2010]] • [[en:cnk:SYN2013PUB|SYN2013PUB]] • [[en:cnk:syn2015|SYN2015]]
 </WRAP> </WRAP>