Toto je starší verze dokumentu!
Korpus SYN2013PUB
Korpus SYN2013PUB je podobně jako korpusy SYN2006PUB a SYN2009PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.
Název | SYN2013PUB | |
---|---|---|
Pozice | Počet pozic (tokenů) | 1 120 014 835 |
Počet pozic (tokenů) bez interpunkce | 934 781 949 | |
Počet slovních tvarů (wordů) | 4 200 464 | |
Počet lemmat | 2 549 185 | |
Struktury | Počet opusů | 21 469 |
Počet dokumentů | 4 172 882 | |
Počet vět | 76 681 361 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (publicistika) | |
Rok zveřejnění | 2013 |