Korpus Etalon: ručně anotovaný korpus českých textů

Korpus Etalon je synchronní korpus psané češtiny, který byl manuálně morfologicky označkován podle stejných zásad jako SYN2020.

Název			Etalon
Pozice	Počet pozic (tokenů)		2 265 762
Pozice	Počet pozic bez interpunkce		1 885 621
Struktury	Počet dokumentů <doc>		94
Struktury	Počet vět <s>		153 774
Složení korpusu	Beletrie	pozice	538 219
		slova	436 548
		věty	38 919
	Odborná literatura	pozice	912 194
		slova	758 227
		věty	60 098
	Publicistika	pozice	815 349
		slova	690 846
		věty	54 757
Rok zveřejnění			2021

Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům:

Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti segmentace, tokenizace či morfologického značkování korpusu SYN2020 nebo dalších korpusů z řady SYN, by měl poskytnout odpověď na otázku, jak měl být korpus anotován.
Jako soubor trénovacích a testovacích dat pro metody automatického značkování, ať už jde o metody využívající lingvistická pravidla, nebo o metody stochastické, neuronové sítě apod.

Složení korpusu Etalon

Korpus Etalon je složen z textů publicistických, odborných i z beletrie. Převážná část textů pochází z korpusu SYN2010. Převažují texty publicistické (36 %) a odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka). Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upraveny, protože hlavním cílem naší práce bylo získat texty vzorové. Opravovali jsme zjevné překlepy, ale též případy, kdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání.

Morfologická anotace

Korpus Etalon je segmentován, lemmatizován a morfologicky anotován stejně jako SYN2020: korpus obsahuje atributy word, synword, lemma, sublemma, tag a verbtag.

Zpřístupnění korpusu

Korpus Etalon je zpřístupněn dvěma způsoby:

Korpus ČNK v rozhraní Kontext.
Data ve vertikále: tato data je možné si stáhnout z úložiště LINDAT/CLARIN (pro nekomerční účely). Tato data jsou rozdělena na segmenty o maximálně 100 slovech (bez interpunkce) a segmenty jsou promíchány.

Poděkování

Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z ÚTKL, hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb.

Jak citovat korpus Etalon

Skoumalová, H.: Etalon: manuálně anotovaný synchronní korpus českých textů. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz

Historie: • ukwac • ortofon • verbtag • aranea • diakorp • parlcorp • cep • tag • ukwac • etalon