Toto je starší verze dokumentu!
Korpus SYN2013PUB
Korpus SYN2013PUB je podobně jako korpusy SYN2006PUB a SYN2009PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.
Název | SYN2013PUB | |
---|---|---|
Pozice | Počet pozic (tokenů) | 1 120 014 835 |
Počet pozic (tokenů) bez interpunkce | 934 781 949 | |
Počet slovních tvarů (wordů) | 4 200 464 | |
Počet lemmat | 2 549 185 | |
Struktury | Počet opusů | 21 469 |
Počet dokumentů | 4 172 882 | |
Počet vět | 76 681 361 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (publicistika) | |
Rok zveřejnění | 2013 |
Změny oproti korpusu SYN2009PUB
Lemmatizace a morfologické značkování korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly:
- odstranění čísla u reflexivních zájmen
- odstranění rodu posesora u zájmen jeho, jejich
- odstranění osoby a čísla u tvaru by