AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2013PUB

Korpus SYN2013PUB je podobně jako korpusy SYN2006PUB a SYN2009PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.

Název SYN2013PUB
Pozice Počet pozic (tokenů) 1 120 014 835
Počet pozic (tokenů) bez interpunkce 934 781 949
Počet slovních tvarů (wordů) 4 200 464
Počet lemmat 2 549 185
Struktury Počet opusů 21 469
Počet dokumentů 4 172 882
Počet vět 76 681 361
Další informace Referenční ANO
Reprezentativní NE (publicistika)
Rok zveřejnění 2013

Změny oproti korpusu SYN2009PUB

Lemmatizace a morfologické značkování korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly:

  • odstranění čísla u reflexivních zájmen
  • odstranění rodu posesora u zájmen jeho, jejich
  • odstranění osoby a čísla u tvaru by