AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:onomos [2023/11/30 17:06] jankocekcnk:onomos [2023/12/05 13:50] (aktuální) jankocek
Řádek 3: Řádek 3:
 Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů.  Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů. 
  
-{{:cnk:onomos_graf.png?direct&700|Obrázek č. 1 – struktura korpusu OnomOs (v tokenech) }} +[{{:cnk:onomos_graf.png?direct&700|}}] 
- +**Obrázek č. 1** – struktura korpusu OnomOs (v tokenech)
-Obrázek č. 1 – struktura korpusu OnomOs (v tokenech)+
  
 Specifikem korpusu je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. Anotace byla provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https://ufal.mff.cuni.cz/nametag/2). Klasifikace, kterou užívá NameTag 2, však byla upravena, aby byla v souladu s lingvistickým, respektive onomastickým pojetím vlastních jmen (viz Šrámek, 1999 a příslušná hesla v Novém encyklopedickém slovníku češtiny online: Karlík – Nekula – Pleskalová, 2017) a se současnou onomastickou terminologií. Jejím základem jsou kategorie vyššího řádu, zastoupené antroponymy (jmény osobními; A), toponymy (jmény/názvy místními; T) a chrématonymy (názvy lidských výrobků a výtvorů; C). Každá z těchto kategorií se dělí do kategorií nižšího řádu (např. AF – rodná jména, TT – názvy teritorií, CF – názvy firem a společností). Dvoupísmenné kódování kategorií nižšího řádu vychází z jejich anglických pojmenování, případně z blízkých pojmů (např. měny jsou označeny jako CM podle angl. „money“); písmena „X“ a „Y“ jsou vyhrazena pro skupiny málo specifikované (underspecified; např. CX). Mimo klasifikaci stojí výrazy s číslovkami (n), včetně čísel v adresách (a), a některé další kategorie, které česká tradice za vlastní jména nepovažuje (e-mailové adresy [me], internetové odkazy [mi], měrné jednotky [oe], akademické tituly [pd] a většina časových výrazů, např. názvy měsíců [tm]). Transformace kategorií NameTagu 2 do nových, onomastických tříd komplexně prezentuje tabulka č. 1. Specifikem korpusu je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. Anotace byla provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https://ufal.mff.cuni.cz/nametag/2). Klasifikace, kterou užívá NameTag 2, však byla upravena, aby byla v souladu s lingvistickým, respektive onomastickým pojetím vlastních jmen (viz Šrámek, 1999 a příslušná hesla v Novém encyklopedickém slovníku češtiny online: Karlík – Nekula – Pleskalová, 2017) a se současnou onomastickou terminologií. Jejím základem jsou kategorie vyššího řádu, zastoupené antroponymy (jmény osobními; A), toponymy (jmény/názvy místními; T) a chrématonymy (názvy lidských výrobků a výtvorů; C). Každá z těchto kategorií se dělí do kategorií nižšího řádu (např. AF – rodná jména, TT – názvy teritorií, CF – názvy firem a společností). Dvoupísmenné kódování kategorií nižšího řádu vychází z jejich anglických pojmenování, případně z blízkých pojmů (např. měny jsou označeny jako CM podle angl. „money“); písmena „X“ a „Y“ jsou vyhrazena pro skupiny málo specifikované (underspecified; např. CX). Mimo klasifikaci stojí výrazy s číslovkami (n), včetně čísel v adresách (a), a některé další kategorie, které česká tradice za vlastní jména nepovažuje (e-mailové adresy [me], internetové odkazy [mi], měrné jednotky [oe], akademické tituly [pd] a většina časových výrazů, např. názvy měsíců [tm]). Transformace kategorií NameTagu 2 do nových, onomastických tříd komplexně prezentuje tabulka č. 1.
  
-^**Kategorie vyššího řádu (NameTag 2)**^**Kategorie nižšího řádu (NameTag 2)** ^**Kategorie nižšího řádu (OnomOs)**      ^**Kategorie vyššího řádu (OnomOs)**^+^**Kategorie vyššího řádu\\ (NameTag 2)**^**Kategorie nižšího řádu\\ (NameTag 2)** ^**Kategorie nižšího řádu\\ (OnomOs)**      ^**Kategorie vyššího řádu\\ (OnomOs)**^
 |p - Personal names                    |pf - first names                       |AF: first names                          |Antroponyma (A)                    | |p - Personal names                    |pf - first names                       |AF: first names                          |Antroponyma (A)                    |
-|         :::                          |pm - second names                      |                                         |     :::                               |+|         :::                          |pm - second names                      |       :::                               |     :::                               |
 |         :::                          |pc - inhabitant names                  |AI: inhabitants                          |     :::                              | |         :::                          |pc - inhabitant names                  |AI: inhabitants                          |     :::                              |
 |         :::                          |pp - relig./myth persons               |AM: religious and mythological names         :::                              | |         :::                          |pp - relig./myth persons               |AM: religious and mythological names         :::                              |
Řádek 17: Řádek 16:
 |         :::                          |p_ - underspecified                    |AX: underspecified anthroponyms          |     :::                              | |         :::                          |p_ - underspecified                    |AX: underspecified anthroponyms          |     :::                              |
 |g - Geographical names                |gl - nature areas / objects            |TN: nature names                         |Toponyma (T)                       | |g - Geographical names                |gl - nature areas / objects            |TN: nature names                         |Toponyma (T)                       |
-|         :::                          |gh - hydronyms                                                                 |     :::                             |+|         :::                          |gh - hydronyms                                :::                              |     :::                             |
 |         :::                          |gq - urban parts                       |TS: settlements                          |     :::                              | |         :::                          |gq - urban parts                       |TS: settlements                          |     :::                              |
-|         :::                          |gu - cities/towns                      |                                         |     :::                             |+|         :::                          |gu - cities/towns                      |        :::                              |     :::                             |
 |         :::                          |gr - territorial names                 |TT: territories                          |     :::                             | |         :::                          |gr - territorial names                 |TT: territories                          |     :::                             |
-|         :::                          |gt - continents                        |                                         |     :::                              | +|         :::                          |gt - continents                        |        :::                              |     :::                              | 
-|         :::                          |gc - states                            |                                         |     :::                              |+|         :::                          |gc - states                            |        :::                              |     :::                              |
 |         :::                          |gs - streets, squares                  |TU: urbanonyms                               :::                              | |         :::                          |gs - streets, squares                  |TU: urbanonyms                               :::                              |
 |         :::                          |g_ - underspecified                    |TX: underspecified toponyms              |     :::                              | |         :::                          |g_ - underspecified                    |TX: underspecified toponyms              |     :::                              |
Řádek 39: Řádek 38:
 |t - Time expressions                  |tf - feasts                            |CH: feasts                                   :::                              | |t - Time expressions                  |tf - feasts                            |CH: feasts                                   :::                              |
  
-Tabulka č. 1 – modifikace třídění vlastních jmen v NameTagu 2 pro účely korpusu OnomOs+**Tabulka č. 1** – modifikace třídění vlastních jmen v NameTagu 2 pro účely korpusu OnomOs
  
 Korpus OnomOs sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Projekt vznikl s podporou grantového projektu SGS02/FF/2023 //OnomOs – ostravský korpus vlastních jmen//, který byl řešen na Filozofické fakultě Ostravské univerzity. Korpus OnomOs sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Projekt vznikl s podporou grantového projektu SGS02/FF/2023 //OnomOs – ostravský korpus vlastních jmen//, který byl řešen na Filozofické fakultě Ostravské univerzity.
  
-===== Jak vyhledávat propria v korpusu OnomOs =====+======Jak vyhledávat propria v korpusu OnomOs======
  
 Vlastní jména lze v korpusu OnomOs vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu):  Vlastní jména lze v korpusu OnomOs vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu): 
Řádek 59: Řádek 58:
 Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 3). Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 3).
  
 +
 +[{{:cnk:onomos_konkordance.png?direct&800|}}]
 +**Obrázek č. 2** – konkordance všech výskytů názvů teritorií v korpusu OnomOs.
 +
 +
 +[{{:cnk:onomos_distribuce.png?direct&800|}}]
 +**Obrázek č. 3** – distribuce typů toponym v korpusu OnomOs. 
 +
 +======Jak citovat korpus OnomOs====== 
 +
 +<WRAP round tip 70%>
 +David, J. – Davidová Glogarová, J. – Klemensová, T. – Místecký, M. – Jeziorský, T. – Křen, M. – Březinová, K. – Halatová, H. – Mádrová, J. – Pavlištíková, J. – Polášková, K. – Reclik, A. – Strnadlová, M. //Korpus OnomOs//. Ústav Českého národního korpusu FF UK, Praha 2023. Dostupný z WWW: http://www.korpus.cz.
 +</WRAP>
 +
 +
 +======Zdroje====== 
 +  * Karlík, P. – Nekula, M. – Pleskalová, J. (2017, eds.), //Nový encyklopedický slovník češtiny online//. Brno: Masarykova univerzita. Dostupný z WWW: https://www.czechency.org.
 +  * Straková, J. – Straka, M. – Hajič, J. (2019): Neural Architectures for Nested NER through Linearization. In: A. Korhonen – D. Traum – L. Màrquez (eds.), //Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics//. Florencie: Association for Computational Linguistics, s. 5326–5331.
 +  * Ševčíková, M., Žabokrtský, Z., Krůza, O. (2007): Named Entities in Czech: Annotating Data and Developing NE Tagger. In: V. Matoušek – P. Mautner (eds), //Text, Speech and Dialogue//. TSD 2007. Lecture Notes in Computer Science. Berlin – Heidelberg: Springer, s. 188–195.
 +  * Šrámek, R. (1999): //Úvod do obecné onomastiky//. Brno: Masarykova univerzita.