~~NOTOC~~
====== Korpus Etalon: ručně anotovaný korpus českých textů ======
Korpus Etalon je [[pojmy:synchronni|synchronní]] korpus psané češtiny, který byl manuálně [[pojmy:morfologicka_analyza|morfologicky označkován]] podle stejných zásad jako [[cnk:syn2020|SYN2020]].
^ Název ^^^ Etalon ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] ^| 2 265 762 |
^ ::: ^ Počet pozic bez interpunkce ^| 1 885 621 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] ^| 94 |
^ ::: ^ Počet vět ^| 153 774 |
^ Složení korpusu ^ Beletrie ^ pozice | 538 219 |
^ ::: ^ ::: ^ slova | 436 548 |
^ ::: ^ ::: ^ věty | 38 919 |
^ ::: ^ Odborná literatura ^ pozice | 912 194 |
^ ::: ^ ::: ^ slova | 758 227 |
^ ::: ^ ::: ^ věty | 60 098 |
^ ::: ^ Publicistika ^ pozice | 815 349 |
^ ::: ^ ::: ^ slova | 690 846 |
^ ::: ^ ::: ^ věty | 54 757 |
^ Rok zveřejnění ^^| 2021 |
Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům:
- Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti [[pojmy:segmentace|segmentace]], [[pojmy:token|tokenizace]] či [[pojmy:morfologicka_analyza|morfologického značkování]] korpusu [[cnk:syn2020|SYN2020]] nebo dalších korpusů z řady [[cnk:syn|SYN]], by měl poskytnout odpověď na otázku, jak měl být korpus anotován.
- Jako soubor trénovacích a testovacích dat pro metody automatického značkování, ať už jde o metody využívající lingvistická pravidla, nebo o metody stochastické, neuronové sítě apod.
===== Složení korpusu Etalon =====
Korpus Etalon je složen z textů publicistických, odborných i z beletrie. Převážná část textů pochází z korpusu [[cnk:syn2010|SYN2010]]. Převažují texty publicistické (36 %) a odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka). Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upraveny, protože hlavním cílem naší práce bylo získat texty vzorové. Opravovali jsme zjevné překlepy, ale též případy, kdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání.
===== Morfologická anotace =====
Korpus Etalon je segmentován, lemmatizován a morfologicky anotován stejně jako [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|SYN2020]]: korpus obsahuje atributy [[cnk:syn2020#vicenasobna_lemmatizace_a_znackovani_agregat| word, synword]], [[cnk:syn2020#lemmatizace|lemma, sublemma]], [[cnk:syn2020#morfologicke_znackovani_tag|tag]] a [[cnk:syn2020#znackovani_sloves_verbtag|verbtag]].
===== Zpřístupnění korpusu =====
Korpus Etalon je zpřístupněn dvěma způsoby:
- Korpus ČNK v rozhraní [[manualy:kontext|Kontext]].
- Data ve vertikále: tato data je možné si stáhnout z úložiště [[http://hdl.handle.net/11234/1-3698|LINDAT/CLARIN]] (pro nekomerční účely). Tato data jsou rozdělena na segmenty o maximálně 100 slovech (bez interpunkce) a segmenty jsou promíchány.
===== Poděkování =====
Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z [[http://utkl.ff.cuni.cz|ÚTKL]], hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb.
===== Jak citovat korpus Etalon =====
Skoumalová, H.: //Etalon: manuálně anotovaný synchronní korpus českých textů//. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz