Korpus Etalon je synchronní korpus psané češtiny, který byl manuálně morfologicky označkován podle stejných zásad jako SYN2020.
Název | Etalon | ||
---|---|---|---|
Pozice | Počet pozic (tokenů) |
2 265 762
|
|
Počet pozic bez interpunkce | 1 885 621 | ||
Struktury | Počet dokumentů <doc> | 94 | |
Počet vět <s> | 153 774 | ||
Složení korpusu | Beletrie | pozice | 538 219 |
slova | 436 548 | ||
věty | 38 919 | ||
Odborná literatura | pozice | 912 194 | |
slova | 758 227 | ||
věty | 60 098 | ||
Publicistika | pozice | 815 349 | |
slova | 690 846 | ||
věty | 54 757 | ||
Rok zveřejnění | 2021 |
Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům:
Korpus Etalon je složen z textů publicistických, odborných i z beletrie. Převážná část textů pochází z korpusu SYN2010. Převažují texty publicistické (36 %) a odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka). Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upraveny, protože hlavním cílem naší práce bylo získat texty vzorové. Opravovali jsme zjevné překlepy, ale též případy, kdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání.
Korpus Etalon je segmentován, lemmatizován a morfologicky anotován stejně jako SYN2020: korpus obsahuje atributy word, synword, lemma, sublemma, tag a verbtag.
Korpus Etalon je zpřístupněn dvěma způsoby:
Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z ÚTKL, hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb.
Skoumalová, H.: Etalon: manuálně anotovaný synchronní korpus českých textů. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz