AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
en:cnk:syn2010 [2016/12/11 11:27] veronikapojarovaen:cnk:syn2010 [2016/12/11 16:27] (current) veronikapojarova
Line 3: Line 3:
  
 SYN2010 is a synchronic representative corpus of written Czech comprising 100 million tokens. It is a sequel to the corpora [[en:cnk:SYN2000]] and [[en:cnk:SYN2005]] and together with them forms a series of synchronic representative corpora that cover three successive periods.  SYN2010 is a synchronic representative corpus of written Czech comprising 100 million tokens. It is a sequel to the corpora [[en:cnk:SYN2000]] and [[en:cnk:SYN2005]] and together with them forms a series of synchronic representative corpora that cover three successive periods. 
-**All corpora contain different texts and are therefore disjoint**. The basic characteristic freatures of the SYN2010 are identical to those of the corpus [[en:SYN2005|SYN2005]], which is predominantly related to the same conception of [[en:pojmy:reprezentativnost|representativeness]] based on the reception of written language and the resulting composition of the corpus. The SYN2010 corpus is [[en:pojmy:lemma|lemmatized]] and [[en:pojmy:tag|morphologically tagged]].+**All corpora contain different texts and are therefore disjunctive**. The basic characteristic features of the SYN2010 are identical to those of the corpus [[en:cnk:SYN2005|SYN2005]], which is predominantly related to the same conception of [[en:pojmy:reprezentativnost|representativeness]] based on the reception of written language and the resulting composition of the corpus. The SYN2010 corpus is [[en:pojmy:lemma|lemmatized]] and [[en:pojmy:tag|morphologically tagged]].
  
  
Line 22: Line 22:
 ====== Changes compared to the SYN2005 corpus ====== ====== Changes compared to the SYN2005 corpus ======
  
-Oproti korpusu [[SYN2005|SYN2005]] byla v korpusu SYN2010 **výrazně vylepšena lemmatizace** **[[pojmy:tag|slovnědruhové značkování]]**; obojí je v zásadě shodné se zpracováním korpusu [[SYN2009PUB|SYN2009PUB]]. Ačkoli se tedy [[SYN2005|SYN2005]] SYN2010 navzájem neliší pojetím [[pojmy:reprezentativnost|reprezentativnosti]], při případném srovnávání lexikálních frekvencí mezi nimi **je třeba brát v úvahu také tyto rozdíly**. Proto jsme zveřejnili [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů [[SYN2000|SYN2000]], [[SYN2005|SYN2005]] a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a umožňují tudíž studium změn, kterými čeština za posledních 20 let prošla.+Compared to the corpus [[en:cnk:SYN2005|SYN2005]], the SYN2010 corpus saw **significant improvements in lemmatization** and **[[en:pojmy:tag|morphological tagging]]**; both basically identical to the processing of the [[en:cnk:SYN2009PUB|SYN2009PUB]] corpusTherefore, although [[en:cnk:SYN2005|SYN2005]] and SYN2010 do not differ in their understanding of [[en:pojmy:reprezentativnost|representativeness]], **these differences should be taken into account** when comparing their lexical frequencies
  
 ====== Composition of SYN2010 ====== ====== Composition of SYN2010 ======
Line 28: Line 28:
 Some of the fiction texts may have been published earlier, but there is a general rule that the corpus consists mainly of newer texts, whereas the proportion of older texts is decreasing. Compared to the SYN2005 corpus, the lemmatization and morphological tagging of the SYN2010 corpus have been significantly improved; both of them correspond with the processing of the [[en:cnk:SYN2009PUB]]. Some of the fiction texts may have been published earlier, but there is a general rule that the corpus consists mainly of newer texts, whereas the proportion of older texts is decreasing. Compared to the SYN2005 corpus, the lemmatization and morphological tagging of the SYN2010 corpus have been significantly improved; both of them correspond with the processing of the [[en:cnk:SYN2009PUB]].
  
-<WRAP clear></WRAP>+===== The general composition of SYN2010 =====
  
 [{{:en:cnk:syn2010-slozeni.gif|Structure of corpus SYN2010: <fc #ffcc00>40 % fiction</fc>, <fc #cc0000>27 % technical literature</fc>, <fc #3333ff>33 % journalism</fc>}}] [{{:en:cnk:syn2010-slozeni.gif|Structure of corpus SYN2010: <fc #ffcc00>40 % fiction</fc>, <fc #cc0000>27 % technical literature</fc>, <fc #3333ff>33 % journalism</fc>}}]
Line 44: Line 44:
 [{{:en:cnk:syn2010-slozeni-publicistika-tituly-en.gif|Structure of journalism according to the newspaper title (no. of words  in mil.)}}] [{{:en:cnk:syn2010-slozeni-publicistika-tituly-en.gif|Structure of journalism according to the newspaper title (no. of words  in mil.)}}]
  
-===== Struktura korpusu SYN 2010 ===== +===== Structure of the SYN 2010 corpus =====
- +
-Mezi [[pojmy:atributy_strukturni|strukturní jednotky]], na něž se člení tento korpus, patří ''<opus>'', ''<doc>'' a ''<s>'', tedy celý text, dokument (část textu) a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Jejich seznam lze zobrazit pomocí položky menu [[manualy:kontext:moznosti_zobrazeni|Možnosti zobrazení]], sekce //Struktury//+
- +
-{{:cnk:strukturni_znacky.png?direct&300|Strukturní jednotky a jejich atributy v korpusovém manažeru}}+
  
-K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem //Metainformace//.+Among the [[en:pojmy:atributy_strukturni|structural units]] used in this corpus are ''<opus>''''<doc>'' and ''<s>''; the text, document and sentence – followed by each individual [[en:pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|position]]. They can be displayed using the menu item [[en:manualy:kontext:moznosti_zobrazeni|View options]].
  
 +{{:cnk:strukturni_znacky.png?direct&300|Structural units and their attributes in the corpus manager}}