Both sides previous revisionPrevious revision | Next revisionBoth sides next revision |
en:cnk:syn2010 [2016/12/11 11:27] – veronikapojarova | en:cnk:syn2010 [2016/12/11 11:34] – old revision restored (2015/10/22 21:01) veronikapojarova |
---|
====== Changes compared to the SYN2005 corpus ====== | ====== Changes compared to the SYN2005 corpus ====== |
| |
Oproti korpusu [[SYN2005|SYN2005]] byla v korpusu SYN2010 **výrazně vylepšena lemmatizace** a **[[pojmy:tag|slovnědruhové značkování]]**; obojí je v zásadě shodné se zpracováním korpusu [[SYN2009PUB|SYN2009PUB]]. Ačkoli se tedy [[SYN2005|SYN2005]] a SYN2010 navzájem neliší pojetím [[pojmy:reprezentativnost|reprezentativnosti]], při případném srovnávání lexikálních frekvencí mezi nimi **je třeba brát v úvahu také tyto rozdíly**. Proto jsme zveřejnili [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů [[SYN2000|SYN2000]], [[SYN2005|SYN2005]] a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a umožňují tudíž studium změn, kterými čeština za posledních 20 let prošla. | Compared to the corpus [[en:SYN2005|SYN2005]], the SYN2010 corpus saw **significant improvements in lemmatization** and **[[en:pojmy:tag|morphological tagging]]**; both basically identical to the processing of the [[en:SYN2009PUB|SYN2009PUB]] corpus. Therefore, although [[en:SYN2005|SYN2005]] and SYN2010 do not differ in their understanding of [[en:pojmy:reprezentativnost|representativeness]], **these differences should be taken into account** when comparing their lexical frequencies. |
| |
====== Composition of SYN2010 ====== | ====== Composition of SYN2010 ====== |
[{{:en:cnk:syn2010-slozeni-publicistika-tituly-en.gif|Structure of journalism according to the newspaper title (no. of words in mil.)}}] | [{{:en:cnk:syn2010-slozeni-publicistika-tituly-en.gif|Structure of journalism according to the newspaper title (no. of words in mil.)}}] |
| |
===== Struktura korpusu SYN 2010 ===== | ===== Structure of the SYN 2010 corpus ===== |
| |
Mezi [[pojmy:atributy_strukturni|strukturní jednotky]], na něž se člení tento korpus, patří ''<opus>'', ''<doc>'' a ''<s>'', tedy celý text, dokument (část textu) a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Jejich seznam lze zobrazit pomocí položky menu [[manualy:kontext:moznosti_zobrazeni|Možnosti zobrazení]], sekce //Struktury//. | Among the [[en:pojmy:atributy_strukturni|structural units]] used in this corpus are ''<opus>'', ''<doc>'' and ''<s>''; the text, document and sentence – followed by each individual [[en:pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|position]]. They can be displayed using the menu item [[en:manualy:kontext:moznosti_zobrazeni|View options]]. |
| |
{{:cnk:strukturni_znacky.png?direct&300|Strukturní jednotky a jejich atributy v korpusovém manažeru}} | |
| |
K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem //Metainformace//. | |
| |
| {{:cnk:strukturni_znacky.png?direct&300|Structural units and their attributes in the corpus manager}} |
| |
| |