cnk:onomos - Příručka ČNK

Korpusy OnomOs v1 a OnomOs v2 jsou lingvisticky zpracované databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Korpus OnomOs v1 obsahuje vždy jedno náhodně vybrané číslo z každé dekády, v níž (Rudé) Právo vycházelo. Složení korpusu je podrobněji představeno na obrázku č. 1; celkem korpus obsahuje 255 149 tokenů.

Korpus OnomOs v2 obsahuje všechny texty z korpusu OnomOs v1, a navíc vždy jedno číslo z toho pětiletí, v němž se nenachází náhodně vybrané číslo, které je součástí korpusu OnomOs v1. Pokud tedy např. bylo pro 70. léta vybráno pro korpus OnomOs v1 číslo Rudého práva ze dne 12. března 1979, pak bylo toto číslo v korpusu OnomOs v2 doplněno dalším, které bylo náhodně vybráno z pětiletí 1970–1974. Za dekády považujeme to, co se v úzu označuje jako „léta“; příkladně 70. léta proto vymezujeme obdobím 1970–1979. Obrázek č. 2 zachycuje čísla, o něž byl korpus OnomOs v2 oproti korpusu OnomOs v1 obohacen. Jeho celková velikost je 505 102 tokenů.

Do korpusů byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky.

Obrázek č. 1 – struktura korpusu OnomOs v1 (v tokenech)

Obrázek č. 2 – struktura částí přidaných do korpusu OnomOs v2 (v tokenech)

Specifikem korpusů je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. V případě korpusu OnomOs v1 byla anotace provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https://ufal.mff.cuni.cz/nametag/2), u korpusu OnomOs v2 bylo využito softwaru NameTag 3 (Straková – Straka, 2025; viz zde: https://ufal.mff.cuni.cz/nametag/3). Anotace obou korpusů tak mohou být mírně odlišné.

Klasifikace proprií, kterou užívají NameTag 2 a 3, však byla upravena, aby byla v souladu s lingvistickým, respektive onomastickým pojetím vlastních jmen (viz Šrámek, 1999 a příslušná hesla v Novém encyklopedickém slovníku češtiny online: Karlík – Nekula – Pleskalová, 2017) a se současnou onomastickou terminologií. Jejím základem jsou kategorie vyššího řádu, zastoupené antroponymy (jmény osobními; A), toponymy (jmény/názvy místními; T) a chrématonymy (názvy lidských výrobků a výtvorů; C). Každá z těchto kategorií se dělí do kategorií nižšího řádu (např. AF – rodná jména, TT – názvy teritorií, CF – názvy firem a společností). Dvoupísmenné kódování kategorií nižšího řádu vychází z jejich anglických pojmenování, případně z blízkých pojmů (např. měny jsou označeny jako CM podle angl. „money“); písmena „X“ a „Y“ jsou vyhrazena pro skupiny málo specifikované (underspecified; např. CX). Mimo klasifikaci stojí výrazy s číslovkami (n), včetně čísel v adresách (a), a některé další kategorie, které česká tradice za vlastní jména nepovažuje (e-mailové adresy [me], internetové odkazy [mi], měrné jednotky [oe], akademické tituly [pd] a většina časových výrazů, např. názvy měsíců [tm]). Transformace kategorií NameTagu 2 a 3 do nových, onomastických tříd komplexně prezentuje tabulka č. 1.

Kategorie vyššího řádu (NameTag 2 a 3)	Kategorie nižšího řádu (NameTag 2 a 3)	Kategorie nižšího řádu (OnomOs)	Kategorie vyššího řádu (OnomOs)
p - Personal names	pf - first names	AF: first names	Antroponyma (A)
	pm - second names	AF: first names
	pc - inhabitant names	AI: inhabitants
	pp - relig./myth persons	AM: religious and mythological names
	ps - surnames	AS: surnames
	p_ - underspecified	AX: underspecified anthroponyms
g - Geographical names	gl - nature areas / objects	TN: nature names	Toponyma (T)
	gh - hydronyms	TN: nature names
	gq - urban parts	TS: settlements
	gu - cities/towns	TS: settlements
	gr - territorial names	TT: territories
	gt - continents
	gc - states
	gs - streets, squares	TU: urbanonyms
	g_ - underspecified	TX: underspecified toponyms
i - Institutions	ia - conferences/contests	CC: conferences, contests and events	Chrématonyma (C)
	if - companies, concerns…	CF: companies
	ic - cult./educ./scient. inst.	CI: cultural and educational institutions
	io - government/political inst.	CP: politics
	i_ - underspecified	CX: underspecified institutions
m - Media names	mn - periodical	CN: periodicals
m - Media names	ms - radio and TX stations	CT: radios and TVs
o - Artifact names	oa - cultural artifacts (books, movies)	CA: art products
	or - directives, norms	CD: directives and norms
	om - currency units	CM: currencies
	op - products	CR: products
	o_ - underspecified	CY: underspecified artifacts
t - Time expressions	tf - feasts	CH: feasts

Tabulka č. 1 – modifikace třídění vlastních jmen v NameTagu 2 a 3 pro účely korpusů OnomOs v1 a v2

Korpusy OnomOs v1 a OnomOs v2 sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Korpusy vznikly s podporou grantových projektů SGS02/FF/2023 OnomOs – ostravský korpus vlastních jmen a SGS02/FF/2024 Česká lingvistika 21. století – rozhovory, témata, analýzy, které byly řešeny na Filozofické fakultě Ostravské univerzity.

Vlastní jména lze v korpusech OnomOs v1 a v2 vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu):

[] within <ne type="TT: territories" />

Výslednou konkordanci, která zachycuje teritoriální názvy v korpusu OnomOs v1, lze nalézt na obrázku č. 3. Rovněž postačí i zkrácený příkaz:

[] within <ne type="TT.*" />

V případě potřeby vyhledat kategorie vyššího řádu lze využít např. následující příkaz (v uvozovkách se uvádí první písmeno dané kategorie – A, C, nebo T):

[] within <ne type="T.*" />

Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 4).

Obrázek č. 3 – konkordance všech výskytů názvů teritorií v korpusu OnomOs v1.

Obrázek č. 4 – distribuce typů toponym v korpusu OnomOs v1.

David, J. – Davidová Glogarová, J. – Klemensová, T. – Místecký, M. – Jeziorský, T. – Křen, M. – Březinová, K. – Halatová, H. – Mádrová, J. – Pavlištíková, J. – Polášková, K. – Reclik, A. – Strnadlová, M. Korpus OnomOs v1. Ústav Českého národního korpusu FF UK, Praha 2023. Dostupný z WWW: http://www.korpus.cz.

David, J. – Davidová Glogarová, J. – Jeziorský, T. – Křen, M. – Březinová, K. – Halatová, H. – Mádrová, J. – Klemensová, T. – Místecký, M. Korpus OnomOs v2. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz.

Karlík, P. – Nekula, M. – Pleskalová, J. (2017, eds.), Nový encyklopedický slovník češtiny online. Brno: Masarykova univerzita. Dostupný z WWW: https://www.czechency.org.
Straková, J. – Straka, M. (2025). NameTag 3: A Tool and a Service for Multilingual/Multitagset NER. Dostupné z WWW: https://arxiv.org/abs/2506.05949.
Straková, J. – Straka, M. – Hajič, J. (2019): Neural Architectures for Nested NER through Linearization. In: A. Korhonen – D. Traum – L. Màrquez (eds.), Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florencie: Association for Computational Linguistics, s. 5326–5331.
Ševčíková, M., Žabokrtský, Z., Krůza, O. (2007): Named Entities in Czech: Annotating Data and Developing NE Tagger. In: V. Matoušek – P. Mautner (eds), Text, Speech and Dialogue. TSD 2007. Lecture Notes in Computer Science. Berlin – Heidelberg: Springer, s. 188–195.
Šrámek, R. (1999): Úvod do obecné onomastiky. Brno: Masarykova univerzita.

Obsah

Korpusy OnomOs v1 a OnomOs v2

Jak vyhledávat propria v korpusech OnomOs v1 a v2

Jak citovat korpusy OnomOs v1 a v2

Zdroje

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence