AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2006pub [2013/07/09 19:10] olgarichterovacnk:syn2006pub [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty cvrcek
Řádek 1: Řádek 1:
 +~~NOTOC~~
 ====== Korpus SYN2006PUB ====== ====== Korpus SYN2006PUB ======
  
-Korpus SYN2006PUB je [[pojmy:synchronni|synchronní]] korpus psané publicistiky o rozsahu 300 milionů textových slov ([[[[pojmy:token|tokenů]]). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy [[SYN2000]] a [[SYN2005]]. Všechny tři korpusy jsou však co se zařazených textů týče **disjunktní**, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy SYN2000, SYN2005 a SYN2006PUB obsahují 500 milionů textových slov, korpusy celé řady [[SYN]] pak obsahují 1,3 miliardy slov. +Korpus SYN2006PUB je [[pojmy:synchronni|synchronní]] korpus psané publicistiky o rozsahu 300 milionů textových slov ([[[[pojmy:token|tokenů]]). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy [[SYN2000]] a [[SYN2005]]. Všechny korpusy řady SYN jsou však co se zařazených textů týče **disjunktní**, tj. každý text může být zařazen pouze do jednoho z nich.
  
 +<WRAP right 35%>
 ^ <fs medium>Název</fs> ^^ <fs medium>[[cnk:syn2006pub|SYN2006PUB]]</fs> ^ ^ <fs medium>Název</fs> ^^ <fs medium>[[cnk:syn2006pub|SYN2006PUB]]</fs> ^
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 361 224 456 |   ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 361 224 456 |  
Řádek 10: Řádek 11:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 1 381 900 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 1 381 900 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 8 922 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 8 922 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 218 300 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 1 218 300 |
 ^ ::: ^ Počet vět | 22 339 344 | ^ ::: ^ Počet vět | 22 339 344 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |   ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |  
 ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE ([[seznamy:txtype|publicistika]]) |   ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE ([[seznamy:txtype|publicistika]]) |  
 ^ ::: ^ Rok zveřejnění | 2006 | ^ ::: ^ Rok zveřejnění | 2006 |
 +</WRAP>
  
 ===== Změny oproti korpusu SYN2005 ===== ===== Změny oproti korpusu SYN2005 =====
Řádek 22: Řádek 24:
 ===== Složení korpusu SYN2006PUB ===== ===== Složení korpusu SYN2006PUB =====
  
-Je třeba zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat. +Je třeba zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.  
- +<WRAP clear></WRAP> 
- +[{{:cnk:syn2006pub-roky.gif?direct&370|Složení korpusu SYN2006PUB podle let (počet slov v mil.).}}] 
-**[[Grafy]]**+[{{:cnk:syn2006pub-tituly.gif?direct&378|Složení korpusu SYN2006PUB podle titulů (počet slov v mil.).}}]
  
 ====== Struktura korpusu SYN2006PUB ====== ====== Struktura korpusu SYN2006PUB ======
  
 Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]].
-Zobrazit si je můžete v položce menu [[cnk:rozhranixx#menu...|Možnosti zobrazení]]+Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]].
  
-{{:cnk:struktur_znacky.jpg?300|}}+{{:cnk:struktur-znacky-syn2006pub.png?600|Strukturní jednotky korpusu SYN2006PUB.}}
  
 K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference. K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference.
- +====== Jak citovat SYN2006PUB ====== 
-====== Jak citovat SYN2009PUB ====== +<WRAP round tip 70%> 
-[[Michal Křen]] +Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: //SYN2006PUB: korpus psané publicistiky//. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupný z WWW: http://www.korpus.cz 
- +</WRAP>
  
  
  --- //Michal Křen, Olga Richterová//  --- //Michal Křen, Olga Richterová//
- 
  
 ====== Související odkazy ====== ====== Související odkazy ======
-[[SYN2000]][[SYN2005]][[cnk:syn2010|SYN2010]][[SYN2009PUB]][[SYN]] +<WRAP round box 49%> 
 +[[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] 
 +</WRAP>