Korpus OnomOs
Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů.
Obrázek č. 1 – struktura korpusu OnomOs (v tokenech)
Specifikem korpusu je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. Anotace byla provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https://ufal.mff.cuni.cz/nametag/2). Klasifikace, kterou užívá NameTag 2, však byla upravena, aby byla v souladu s lingvistickým, respektive onomastickým pojetím vlastních jmen (viz Šrámek, 1999 a příslušná hesla v Novém encyklopedickém slovníku češtiny online: Karlík – Nekula – Pleskalová, 2017) a se současnou onomastickou terminologií. Jejím základem jsou kategorie vyššího řádu, zastoupené antroponymy (jmény osobními; A), toponymy (jmény/názvy místními; T) a chrématonymy (názvy lidských výrobků a výtvorů; C). Každá z těchto kategorií se dělí do kategorií nižšího řádu (např. AF – rodná jména, TT – názvy teritorií, CF – názvy firem a společností). Dvoupísmenné kódování kategorií nižšího řádu vychází z jejich anglických pojmenování, případně z blízkých pojmů (např. měny jsou označeny jako CM podle angl. „money“); písmena „X“ a „Y“ jsou vyhrazena pro skupiny málo specifikované (underspecified; např. CX). Mimo klasifikaci stojí výrazy s číslovkami (n), včetně čísel v adresách (a), a některé další kategorie, které česká tradice za vlastní jména nepovažuje (e-mailové adresy [me], internetové odkazy [mi], měrné jednotky [oe], akademické tituly [pd] a většina časových výrazů, např. názvy měsíců [tm]). Transformace kategorií NameTagu 2 do nových, onomastických tříd komplexně prezentuje tabulka č. 1.
Kategorie vyššího řádu (NameTag 2) | Kategorie nižšího řádu (NameTag 2) | Kategorie nižšího řádu (OnomOs) | Kategorie vyššího řádu (OnomOs) |
---|---|---|---|
p - Personal names | pf - first names | AF: first names | Antroponyma (A) |
pm - second names | |||
pc - inhabitant names | AI: inhabitants | ||
pp - relig./myth persons | AM: religious and mythological names | ||
ps - surnames | AS: surnames | ||
p_ - underspecified | AX: underspecified anthroponyms | ||
g - Geographical names | gl - nature areas / objects | TN: nature names | Toponyma (T) |
gh - hydronyms | |||
gq - urban parts | TS: settlements | ||
gu - cities/towns | |||
gr - territorial names | TT: territories | ||
gt - continents | |||
gc - states | |||
gs - streets, squares | TU: urbanonyms | ||
g_ - underspecified | TX: underspecified toponyms | ||
i - Institutions | ia - conferences/contests | CC: conferences, contests and events | Chrématonyma (C) |
if - companies, concerns… | CF: companies | ||
ic - cult./educ./scient. inst. | CI: cultural and educational institutions | ||
io - government/political inst. | CP: politics | ||
i_ - underspecified | CX: underspecified institutions | ||
m - Media names | mn - periodical | CN: periodicals | |
ms - radio and TX stations | CT: radios and TVs | ||
o - Artifact names | oa - cultural artifacts (books, movies) | CA: art products | |
or - directives, norms | CD: directives and norms | ||
om - currency units | CM: currencies | ||
op - products | CR: products | ||
o_ - underspecified | CY: underspecified artifacts | ||
t - Time expressions | tf - feasts | CH: feasts |
Tabulka č. 1 – modifikace třídění vlastních jmen v NameTagu 2 pro účely korpusu OnomOs
Korpus OnomOs sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Projekt vznikl s podporou grantového projektu SGS02/FF/2023 OnomOs – ostravský korpus vlastních jmen, který byl řešen na Filozofické fakultě Ostravské univerzity.
Jak vyhledávat propria v korpusu OnomOs
Vlastní jména lze v korpusu OnomOs vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu):
[] within <ne type="TT: territories" />
Výslednou konkordanci, která zachycuje teritoriální názvy, lze nalézt na obrázku č. 2. Rovněž postačí i zkrácený příkaz:
[] within <ne type="TT.*" />
V případě potřeby vyhledat kategorie vyššího řádu lze využít např. následující příkaz (v uvozovkách se uvádí první písmeno dané kategorie – A, C, nebo T):
[] within <ne type="T.*" />
Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 3).
Obrázek č. 2 – konkordance všech výskytů názvů teritorií v korpusu OnomOs.
Obrázek č. 3 – distribuce typů toponym v korpusu OnomOs.
Jak citovat korpus OnomOs
David, J. – Davidová Glogarová, J. – Klemensová, T. – Místecký, M. – Jeziorský, T. – Křen, M. – Březinová, K. – Halatová, H. – Mádrová, J. – Pavlištíková, J. – Polášková, K. – Reclik, A. – Strnadlová, M. Korpus OnomOs. Ústav Českého národního korpusu FF UK, Praha 2023. Dostupný z WWW: http://www.korpus.cz.
Zdroje
- Karlík, P. – Nekula, M. – Pleskalová, J. (2017, eds.), Nový encyklopedický slovník češtiny online. Brno: Masarykova univerzita. Dostupný z WWW: https://www.czechency.org.
- Straková, J. – Straka, M. – Hajič, J. (2019): Neural Architectures for Nested NER through Linearization. In: A. Korhonen – D. Traum – L. Màrquez (eds.), Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florencie: Association for Computational Linguistics, s. 5326–5331.
- Ševčíková, M., Žabokrtský, Z., Krůza, O. (2007): Named Entities in Czech: Annotating Data and Developing NE Tagger. In: V. Matoušek – P. Mautner (eds), Text, Speech and Dialogue. TSD 2007. Lecture Notes in Computer Science. Berlin – Heidelberg: Springer, s. 188–195.
- Šrámek, R. (1999): Úvod do obecné onomastiky. Brno: Masarykova univerzita.