Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn2009pub [2013/07/09 19:08] – olgarichterova | cnk:syn2009pub [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty cvrcek |
---|
| ~~NOTOC~~ |
====== Korpus SYN2009PUB ====== | ====== Korpus SYN2009PUB ====== |
| |
Korpus SYN2009PUB je podobně jako korpus [[SYN2006PUB]] [[pojmy:synchronni|synchronní]] korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov ([[[[pojmy:token|tokenů]]). I nadále platí, že všechny korpusy řady [[SYN]] jsou **disjunktní**, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy řady [[SYN]] obsahují 1 300 milionů textových slov (tokenů). | Korpus SYN2009PUB je podobně jako korpus [[SYN2006PUB]] [[pojmy:synchronni|synchronní]] korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov ([[[[pojmy:token|tokenů]]). Všechny korpusy řady [[SYN]] jsou **disjunktní**, tj. každý text může být zařazen pouze do jednoho z nich. |
| |
| <WRAP right 35 %> |
^ <fs medium>Název</fs> ^^ <fs medium>[[cnk:syn2009pub|SYN2009PUB]]</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>[[cnk:syn2009pub|SYN2009PUB]]</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 844 881 368 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 844 881 368 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 2 268 070 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 2 268 070 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 11 176 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 11 176 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 3 262 815 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 3 262 815 | |
^ ::: ^ Počet vět | 55 670 721 | | ^ ::: ^ Počet vět | 55 670 721 | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE ([[seznamy:txtype|publicistika]]) | | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE ([[seznamy:txtype|publicistika]]) | |
^ ::: ^ Rok zveřejnění | 2010 | | ^ ::: ^ Rok zveřejnění | 2010 | |
| </WRAP> |
| |
===== Změny oproti korpusu SYN2006PUB ===== | ===== Změny oproti korpusu SYN2006PUB ===== |
===== Složení korpusu SYN2009PUB ===== | ===== Složení korpusu SYN2009PUB ===== |
| |
Stejně jako korpus [[SYN2006PUB]] si ani SYN2009PUB v žádném ohledu nečiní nárok na reprezentativnost. Ačkoli do něj byly zařazeny **desítky nezávislých regionálních novin** a dalších titulů (také jako jistá protiváha k Deníkům Bohemia a Deníkům Moravia), jejich celkový podíl na korpusu je velice malý. Z přiložených grafů je zřejmé, že složení korpusu není vyvážené ani podle roku vydání, ani podle titulů. Korpus SYN2009PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat. | Stejně jako korpus [[SYN2006PUB]] si ani SYN2009PUB v žádném ohledu nečiní nárok na reprezentativnost. Ačkoli do něj byly zařazeny **desítky nezávislých regionálních novin** a dalších titulů (také jako jistá protiváha k Deníkům Bohemia a Deníkům Moravia), jejich celkový podíl na korpusu je velice malý. Z přiložených grafů je zřejmé, že složení korpusu není vyvážené ani podle roku vydání, ani podle titulů. Korpus SYN2009PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat. |
| |
**[[Grafy]]** | [{{:cnk:syn2009pub-roky.gif?direct&320|Složení korpusu SYN2009PUB podle let (počet slov v mil.).}}] |
| [{{:cnk:syn2009pub-tituly.gif?direct&400|Složení korpusu SYN2009PUB podle titulů (počet slov v mil.).}}] |
| |
====== Struktura korpusu SYN2009PUB ====== | ===== Struktura korpusu SYN2009PUB ===== |
| |
Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. | Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. |
Zobrazit si je můžete v položce menu [[cnk:rozhranixx#menu...|Možnosti zobrazení]] | Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]. |
| |
{{:cnk:struktur_znacky.jpg?300|}} | [{{:cnk:struktur_znacky_09pub.png?direct&400| Strukturní jednotky korpusu SYN2009PUB.}}] |
| |
K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference. | K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference. |
| |
===== Jak citovat SYN2009PUB ===== | ====== Jak citovat SYN2009PUB ====== |
[[Michal Křen]] | |
| |
| <WRAP round tip 75%> |
| Křen, M. – Bartoň, T. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: //SYN2009PUB: korpus psané publicistiky//. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz |
| |
--- //Michal Křen, Olga Richterová// | Křen, M. (2009): [[http://ucrel.lancs.ac.uk/publications/cl2009/269_FullPaper.doc|The SYN Concept: Towards One-Billion Corpus of Czech]]. In Mahlberg, M. – González-Díaz, V. – Smith, C. (eds), Proceedings of the Corpus Linguistics Conference. Liverpool. |
| </WRAP> |
| |
| |
===== Související odkazy ===== | --- //Michal Křen, Olga Richterová// |
[[SYN2000]], [[SYN2005]], [[cnk:syn2010|SYN2010]], [[SYN2006PUB]], [[SYN]] | ====== Související odkazy ====== |
| <WRAP round box 49%> |
| [[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] |
| </WRAP> |