Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:onomos [2023/11/30 11:34] – vytvořeno jankocek
+++ cnk:onomos [2025/07/15 15:55] (aktuální) – OnomOs v2 jeziorsky
@@ Řádek 1: / Řádek 1: @@
-====== Korpus OnomOs ======
+====== Korpusy OnomOs v1 a OnomOs v2 ======
+Korpusy OnomOs v1 a OnomOs v2 jsou lingvisticky zpracované databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Korpus OnomOs v1 obsahuje vždy jedno náhodně vybrané číslo z každé dekády, v níž (Rudé) Právo vycházelo. Složení korpusu je podrobněji představeno na obrázku č. 1; celkem korpus obsahuje 255 149 tokenů.
+Korpus OnomOs v2 obsahuje všechny texty z korpusu OnomOs v1, a navíc vždy jedno číslo z toho pětiletí, v němž se nenachází náhodně vybrané číslo, které je součástí korpusu OnomOs v1. Pokud tedy např. bylo pro 70. léta vybráno pro korpus OnomOs v1 číslo Rudého práva ze dne 12. března 1979, pak bylo toto číslo v korpusu OnomOs v2 doplněno dalším, které bylo náhodně vybráno z pětiletí 1970–1974. Za dekády považujeme to, co se v úzu označuje jako „léta“; příkladně 70. léta proto vymezujeme obdobím 1970–1979. Obrázek č. 2 zachycuje čísla, o něž byl korpus OnomOs v2 oproti korpusu OnomOs v1 obohacen. Jeho celková velikost je 505 102 tokenů.
+Do korpusů byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky.
+[{{:cnk:onomos_v1_graf.png?direct&700|}}]
+**Obrázek č. 1** – struktura korpusu OnomOs v1 (v tokenech)
+[{{:cnk:onomos_v2_graf.png?direct&700|}}]
+**Obrázek č. 2** – struktura částí přidaných do korpusu OnomOs v2 (v tokenech)
+Specifikem korpusů je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. V případě korpusu OnomOs v1 byla anotace provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https://ufal.mff.cuni.cz/nametag/2), u korpusu OnomOs v2 bylo využito softwaru NameTag 3 (Straková – Straka, 2025; viz zde: https://ufal.mff.cuni.cz/nametag/3). Anotace obou korpusů tak mohou být mírně odlišné.
+Klasifikace proprií, kterou užívají NameTag 2 a 3, však byla upravena, aby byla v souladu s lingvistickým, respektive onomastickým pojetím vlastních jmen (viz Šrámek, 1999 a příslušná hesla v Novém encyklopedickém slovníku češtiny online: Karlík – Nekula – Pleskalová, 2017) a se současnou onomastickou terminologií. Jejím základem jsou kategorie vyššího řádu, zastoupené antroponymy (jmény osobními; A), toponymy (jmény/názvy místními; T) a chrématonymy (názvy lidských výrobků a výtvorů; C). Každá z těchto kategorií se dělí do kategorií nižšího řádu (např. AF – rodná jména, TT – názvy teritorií, CF – názvy firem a společností). Dvoupísmenné kódování kategorií nižšího řádu vychází z jejich anglických pojmenování, případně z blízkých pojmů (např. měny jsou označeny jako CM podle angl. „money“); písmena „X“ a „Y“ jsou vyhrazena pro skupiny málo specifikované (underspecified; např. CX). Mimo klasifikaci stojí výrazy s číslovkami (n), včetně čísel v adresách (a), a některé další kategorie, které česká tradice za vlastní jména nepovažuje (e-mailové adresy [me], internetové odkazy [mi], měrné jednotky [oe], akademické tituly [pd] a většina časových výrazů, např. názvy měsíců [tm]). Transformace kategorií NameTagu 2 a 3 do nových, onomastických tříd komplexně prezentuje tabulka č. 1.
+^**Kategorie vyššího řádu\\ (NameTag 2 a 3)**^**Kategorie nižšího řádu\\ (NameTag 2 a 3)** ^**Kategorie nižšího řádu\\ (OnomOs)**      ^**Kategorie vyššího řádu\\ (OnomOs)**^
+|p - Personal names                    |pf - first names                       |AF: first names                          |Antroponyma (A)                    |
+|         :::                          |pm - second names                      |       :::                               |     :::                               |
+|         :::                          |pc - inhabitant names                  |AI: inhabitants                          |     :::                              |
+|         :::                          |pp - relig./myth persons               |AM: religious and mythological names     |     :::                              |
+|         :::                          |ps - surnames                          |AS: surnames                             |     :::                              |
+|         :::                          |p_ - underspecified                    |AX: underspecified anthroponyms          |     :::                              |
+|g - Geographical names                |gl - nature areas / objects            |TN: nature names                         |Toponyma (T)                       |
+|         :::                          |gh - hydronyms                         |        :::                              |     :::                             |
+|         :::                          |gq - urban parts                       |TS: settlements                          |     :::                              |
+|         :::                          |gu - cities/towns                      |        :::                              |     :::                             |
+|         :::                          |gr - territorial names                 |TT: territories                          |     :::                             |
+|         :::                          |gt - continents                        |        :::                              |     :::                              |
+|         :::                          |gc - states                            |        :::                              |     :::                              |
+|         :::                          |gs - streets, squares                  |TU: urbanonyms                           |     :::                              |
+|         :::                          |g_ - underspecified                    |TX: underspecified toponyms              |     :::                              |
+|i - Institutions                      |ia - conferences/contests              |CC: conferences, contests and events     |Chrématonyma (C)                   |
+|         :::                          |if - companies, concerns…              |CF: companies                            |     :::                              |
+|         :::                          |ic - cult./educ./scient. inst.         |CI: cultural and educational institutions|     :::                              |
+|         :::                          |io - government/political inst.        |CP: politics                             |     :::                              |
+|         :::                          |i_ - underspecified                    |CX: underspecified institutions          |     :::                              |
+|m - Media names                       |mn - periodical                        |CN: periodicals                          |     :::                              |
+|         :::                          |ms - radio and TX stations             |CT: radios and TVs                       |     :::                              |
+|o - Artifact names                    |oa - cultural artifacts (books, movies)|CA: art products                         |     :::                              |
+|         :::                          |or - directives, norms                 |CD: directives and norms                 |     :::                              |
+|         :::                          |om - currency units                    |CM: currencies                           |     :::                              |
+|         :::                          |op - products                          |CR: products                             |     :::                              |
+|         :::                          |o_ - underspecified                    |CY: underspecified artifacts             |     :::                              |
+|t - Time expressions                  |tf - feasts                            |CH: feasts                               |     :::                              |
+**Tabulka č. 1** – modifikace třídění vlastních jmen v NameTagu 2 a 3 pro účely korpusů OnomOs v1 a v2
+Korpusy OnomOs v1 a OnomOs v2 sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Korpusy vznikly s podporou grantových projektů SGS02/FF/2023 //OnomOs – ostravský korpus vlastních jmen// a SGS02/FF/2024 //Česká lingvistika 21. století – rozhovory, témata, analýzy//, které byly řešeny na Filozofické fakultě Ostravské univerzity.
+====== Jak vyhledávat propria v korpusech OnomOs v1 a v2 ======
+Vlastní jména lze v korpusech OnomOs v1 a v2 vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu):
+'' %%[] within <ne type="TT: territories" />%% ''
+Výslednou konkordanci, která zachycuje teritoriální názvy v korpusu OnomOs v1, lze nalézt na obrázku č. 3. Rovněž postačí i zkrácený příkaz:
+'' %%[] within <ne type="TT.*" />%% ''
+V případě potřeby vyhledat kategorie vyššího řádu lze využít např. následující příkaz (v uvozovkách se uvádí první písmeno dané kategorie – A, C, nebo T):
+'' %%[] within <ne type="T.*" />%% ''
+Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 4).
+[{{:cnk:onomos_konkordance.png?direct&800|}}]
+**Obrázek č. 3** – konkordance všech výskytů názvů teritorií v korpusu OnomOs v1.
+[{{:cnk:onomos_distribuce.png?direct&800|}}]
+**Obrázek č. 4** – distribuce typů toponym v korpusu OnomOs v1.
+====== Jak citovat korpusy OnomOs v1 a v2 ======
+<WRAP round tip 70%>
+David, J. – Davidová Glogarová, J. – Klemensová, T. – Místecký, M. – Jeziorský, T. – Křen, M. – Březinová, K. – Halatová, H. – Mádrová, J. – Pavlištíková, J. – Polášková, K. – Reclik, A. – Strnadlová, M. //Korpus OnomOs v1//. Ústav Českého národního korpusu FF UK, Praha 2023. Dostupný z WWW: http://www.korpus.cz.
+</WRAP>
+<WRAP round tip 70%>
+David, J. – Davidová Glogarová, J. – Jeziorský, T. – Křen, M. – Březinová, K. – Halatová, H. – Mádrová, J. – Klemensová, T. – Místecký, M. //Korpus OnomOs v2//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz.
+</WRAP>
+======Zdroje======
+  * Karlík, P. – Nekula, M. – Pleskalová, J. (2017, eds.), //Nový encyklopedický slovník češtiny online//. Brno: Masarykova univerzita. Dostupný z WWW: https://www.czechency.org.
+  * Straková, J. – Straka, M. (2025). //NameTag 3: A Tool and a Service for Multilingual/Multitagset NER//. Dostupné z WWW: https://arxiv.org/abs/2506.05949.
+  * Straková, J. – Straka, M. – Hajič, J. (2019): Neural Architectures for Nested NER through Linearization. In: A. Korhonen – D. Traum – L. Màrquez (eds.), //Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics//. Florencie: Association for Computational Linguistics, s. 5326–5331.
+  * Ševčíková, M., Žabokrtský, Z., Krůza, O. (2007): Named Entities in Czech: Annotating Data and Developing NE Tagger. In: V. Matoušek – P. Mautner (eds), //Text, Speech and Dialogue//. TSD 2007. Lecture Notes in Computer Science. Berlin – Heidelberg: Springer, s. 188–195.
+  * Šrámek, R. (1999): //Úvod do obecné onomastiky//. Brno: Masarykova univerzita.
-Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů.

Historie: • lestrepublicain • skript2012_znacky • net • eebo • etalon

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence