Následující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:syn2006pub [2013/06/20 20:47] – vytvořeno olgarichterova | cnk:syn2006pub [2015/02/17 11:11] – Grafy vaclavcvrcek |
---|
| ~~NOTOC~~ |
====== Korpus SYN2006PUB ====== | ====== Korpus SYN2006PUB ====== |
| |
Korpus SYN2006PUB je synchronní korpus psané publicistiky o rozsahu 300 milionů textových slov (tokens). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období pokrytého korpusy SYN2000 a SYN2005. Všechny tři korpusy jsou však co se zařazených textů týče disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy SYN2000, SYN2005 a SYN2006PUB obsahují 500 milionů textových slov (tokens). | Korpus SYN2006PUB je [[pojmy:synchronni|synchronní]] korpus psané publicistiky o rozsahu 300 milionů textových slov ([[[[pojmy:token|tokenů]]). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy [[SYN2000]] a [[SYN2005]]. Všechny korpusy řady SYN jsou však co se zařazených textů týče **disjunktní**, tj. každý text může být zařazen pouze do jednoho z nich. |
| |
Lemmatizace a morfologické značkování korpusu SYN2006PUB jsou oproti korpusu SYN2005 opět vylepšené, i když rozdíl již není tak výrazný jako mezi korpusy SYN2000 a SYN2005. Vlastní systém morfologických značek, tokenizace (rozdělení korpusu na slova) i segmentace (rozdělení na věty) zůstávají stejné jako v případě korpusu SYN2005. | <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>[[cnk:syn2006pub|SYN2006PUB]]</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 361 224 456 | |
| ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 305 785 705 | |
| ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 2 554 069 | |
| ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 1 381 900 | |
| ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 8 922 | |
| ^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 218 300 | |
| ^ ::: ^ Počet vět | 22 339 344 | |
| ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
| ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE ([[seznamy:txtype|publicistika]]) | |
| ^ ::: ^ Rok zveřejnění | 2006 | |
| </WRAP> |
| |
Závěrem považujeme za nutné zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z přiložených grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat. | ===== Změny oproti korpusu SYN2005 ===== |
| |
| [[pojmy:lemma|Lemmatizace]] a [[pojmy:tag|morfologické značkování]] korpusu SYN2006PUB jsou oproti korpusu SYN2005 opět vylepšené, i když rozdíl již není tak výrazný jako mezi korpusy SYN2000 a SYN2005. Vlastní systém [[pojmy:tagset|morfologických značek]], tokenizace (rozdělení korpusu na slova) i [[pojmy:segmentace|segmentace]] (rozdělení na věty) zůstávají stejné jako v případě korpusu SYN2005. |
| |
**Grafy: Složení korpusu podle roků ..** | ===== Složení korpusu SYN2006PUB ===== |
| |
| Je třeba zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat. |
| |
| [{{:cnk:syn2006pub-roky.gif?direct&370|Složení korpusu SYN2006PUB podle let (počet slov v mil.).}}] |
| [{{:cnk:syn2006pub-tituly.gif?direct&378|Složení korpusu SYN2006PUB podle titulů (počet slov v mil.).}}] |
| |
| ====== Struktura korpusu SYN2006PUB ====== |
| |
| Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. |
| Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]. |
| |
| [{{:cnk:struktur_znacky.jpg?300|FIXME Strukturní jednotky korpusu SYN2006PUB.}}] |
| |
| K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference. |
| |
| ====== Jak citovat SYN2006PUB ====== |
| <WRAP round tip 70%> |
| Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: //SYN2006PUB: korpus psané publicistiky//. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupný z WWW: http://www.korpus.cz |
| </WRAP> |
| |
| |
| --- //Michal Křen, Olga Richterová// |
| |
| ====== Související odkazy ====== |
| <WRAP round box 49%> |
| [[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] |
| </WRAP> |