Nastavení

Korpus Etalon: ručně anotovaný korpus českých textů

Korpus Etalon je synchronní korpus psané češtiny, který byl manuálně morfologicky označkován podle stejných zásad jako SYN2020.

Název Etalon
Pozice Počet pozic (tokenů) 2 265 762
Počet pozic bez interpunkce 1 885 621
Struktury Počet dokumentů <doc> 94
Počet vět <s> 153 774
Složení korpusu Beletrie pozice 538 219
slova 436 548
věty 38 919
Odborná literatura pozice 912 194
slova 758 227
věty 60 098
Publicistika pozice 815 349
slova 690 846
věty 54 757
Rok zveřejnění 2021

Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům:

  1. Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti segmentace, tokenizace či morfologického značkování korpusu SYN2020 nebo dalších korpusů z řady SYN, by měl poskytnout odpověď na otázku, jak měl být korpus anotován.
  2. Jako soubor trénovacích a testovacích dat pro metody automatického značkování, ať už jde o metody využívající lingvistická pravidla, nebo o metody stochastické, neuronové sítě apod.

Složení korpusu Etalon

Korpus Etalon je složen z textů publicistických, odborných i z beletrie. Převážná část textů pochází z korpusu SYN2010. Převažují texty publicistické (36 %) a odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka). Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upraveny, protože hlavním cílem naší práce bylo získat texty vzorové. Opravovali jsme zjevné překlepy, ale též případy, kdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání.

Morfologická anotace

Korpus Etalon je segmentován, lemmatizován a morfologicky anotován stejně jako SYN2020: korpus obsahuje atributy word, sforma, lemma, sublemma, tag a verbtag.

Zpřístupnění korpusu

Korpus Etalon je zpřístupněn dvěma způsoby:

  1. Korpus ČNK v rozhraní Kontext.
  2. Data ve vertikále: tato data je možné si stáhnout z úložiště LINDAT/CLARIN (pro nekomerční účely). Tato data jsou rozdělena na segmenty o maximálně 100 slovech (bez interpunkce) a segmenty jsou promíchány.

Poděkování

Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z ÚTKL, hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb.

Jak citovat korpus Etalon

Skoumalová, H.: Etalon: manuálně anotovaný synchronní korpus českých textů. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz