AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revisionBoth sides next revision
en:cnk:syn2010 [2016/12/11 11:27] veronikapojarovaen:cnk:syn2010 [2016/12/11 11:34] – old revision restored (2015/10/22 21:01) veronikapojarova
Line 22: Line 22:
 ====== Changes compared to the SYN2005 corpus ====== ====== Changes compared to the SYN2005 corpus ======
  
-Oproti korpusu [[SYN2005|SYN2005]] byla v korpusu SYN2010 **výrazně vylepšena lemmatizace** **[[pojmy:tag|slovnědruhové značkování]]**; obojí je v zásadě shodné se zpracováním korpusu [[SYN2009PUB|SYN2009PUB]]. Ačkoli se tedy [[SYN2005|SYN2005]] SYN2010 navzájem neliší pojetím [[pojmy:reprezentativnost|reprezentativnosti]], při případném srovnávání lexikálních frekvencí mezi nimi **je třeba brát v úvahu také tyto rozdíly**. Proto jsme zveřejnili [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů [[SYN2000|SYN2000]], [[SYN2005|SYN2005]] a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a umožňují tudíž studium změn, kterými čeština za posledních 20 let prošla.+Compared to the corpus [[en:SYN2005|SYN2005]], the SYN2010 corpus saw **significant improvements in lemmatization** and **[[en:pojmy:tag|morphological tagging]]**; both basically identical to the processing of the [[en:SYN2009PUB|SYN2009PUB]] corpusTherefore, although [[en:SYN2005|SYN2005]] and SYN2010 do not differ in their understanding of [[en:pojmy:reprezentativnost|representativeness]], **these differences should be taken into account** when comparing their lexical frequencies
  
 ====== Composition of SYN2010 ====== ====== Composition of SYN2010 ======
Line 44: Line 44:
 [{{:en:cnk:syn2010-slozeni-publicistika-tituly-en.gif|Structure of journalism according to the newspaper title (no. of words  in mil.)}}] [{{:en:cnk:syn2010-slozeni-publicistika-tituly-en.gif|Structure of journalism according to the newspaper title (no. of words  in mil.)}}]
  
-===== Struktura korpusu SYN 2010 =====+===== Structure of the SYN 2010 corpus =====
  
-Mezi [[pojmy:atributy_strukturni|strukturní jednotky]], na něž se člení tento korpus, patří ''<opus>'', ''<doc>'' ''<s>'', tedy celý text, dokument (část textu) a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Jejich seznam lze zobrazit pomocí položky menu [[manualy:kontext:moznosti_zobrazeni|Možnosti zobrazení]], sekce //Struktury//+Among the [[en:pojmy:atributy_strukturni|structural units]] used in this corpus are ''<opus>'', ''<doc>'' and ''<s>''; the text, document and sentence – followed by each individual [[en:pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|position]]. They can be displayed using the menu item [[en:manualy:kontext:moznosti_zobrazeni|View options]].
- +
-{{:cnk:strukturni_znacky.png?direct&300|Strukturní jednotky a jejich atributy v korpusovém manažeru}} +
- +
-K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem //Metainformace//.+
  
 +{{:cnk:strukturni_znacky.png?direct&300|Structural units and their attributes in the corpus manager}}