Korpus Etalon: ručně anotovaný korpus českých textů
Korpus Etalon je synchronní korpus psané češtiny, který byl manuálně morfologicky označkován podle stejných zásad jako SYN2020.
Název | Etalon | ||
---|---|---|---|
Pozice | Počet pozic (tokenů) |
2 265 762
|
|
Počet pozic bez interpunkce | 1 885 621 | ||
Struktury | Počet dokumentů <doc> | 94 | |
Počet vět <s> | 153 774 | ||
Složení korpusu | Beletrie | pozice | 538 219 |
slova | 436 548 | ||
věty | 38 919 | ||
Odborná literatura | pozice | 912 194 | |
slova | 758 227 | ||
věty | 60 098 | ||
Publicistika | pozice | 815 349 | |
slova | 690 846 | ||
věty | 54 757 | ||
Rok zveřejnění | 2021 |
Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům:
- Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti segmentace, tokenizace či morfologického značkování korpusu SYN2020 nebo dalších korpusů z řady SYN, by měl poskytnout odpověď na otázku, jak měl být korpus anotován.
- Jako soubor trénovacích a testovacích dat pro metody automatického značkování, ať už jde o metody využívající lingvistická pravidla, nebo o metody stochastické, neuronové sítě apod.
Složení korpusu Etalon
Korpus Etalon je složen z textů publicistických, odborných i z beletrie. Převážná část textů pochází z korpusu SYN2010. Převažují texty publicistické (36 %) a odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka). Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upraveny, protože hlavním cílem naší práce bylo získat texty vzorové. Opravovali jsme zjevné překlepy, ale též případy, kdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání.
Morfologická anotace
Korpus Etalon je segmentován, lemmatizován a morfologicky anotován stejně jako SYN2020: korpus obsahuje atributy word, synword, lemma, sublemma, tag a verbtag.
Zpřístupnění korpusu
Korpus Etalon je zpřístupněn dvěma způsoby:
- Korpus ČNK v rozhraní Kontext.
- Data ve vertikále: tato data je možné si stáhnout z úložiště LINDAT/CLARIN (pro nekomerční účely). Tato data jsou rozdělena na segmenty o maximálně 100 slovech (bez interpunkce) a segmenty jsou promíchány.
Poděkování
Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z ÚTKL, hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb.
Jak citovat korpus Etalon
Skoumalová, H.: Etalon: manuálně anotovaný synchronní korpus českých textů. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz