Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Následující verze | Předchozí verze | ||
| cnk:onomos [2023/11/30 11:34] – vytvořeno jankocek | cnk:onomos [2025/07/15 15:55] (aktuální) – OnomOs v2 jeziorsky | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| - | ====== Korpus OnomOs ====== | + | ====== |
| + | |||
| + | Korpusy OnomOs v1 a OnomOs v2 jsou lingvisticky zpracované databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). | ||
| + | |||
| + | Korpus OnomOs v2 obsahuje všechny texty z korpusu OnomOs v1, a navíc vždy jedno číslo z toho pětiletí, v němž se nenachází náhodně vybrané číslo, které je součástí korpusu OnomOs v1. Pokud tedy např. bylo pro 70. léta vybráno pro korpus OnomOs v1 číslo Rudého práva ze dne 12. března 1979, pak bylo toto číslo v korpusu OnomOs v2 doplněno dalším, které bylo náhodně vybráno z pětiletí 1970–1974. Za dekády považujeme to, co se v úzu označuje jako „léta“; | ||
| + | |||
| + | Do korpusů byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. | ||
| + | |||
| + | [{{: | ||
| + | |||
| + | **Obrázek č. 1** – struktura korpusu OnomOs v1 (v tokenech) | ||
| + | |||
| + | [{{: | ||
| + | |||
| + | **Obrázek č. 2** – struktura částí přidaných do korpusu OnomOs v2 (v tokenech) | ||
| + | |||
| + | Specifikem korpusů je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. V případě korpusu OnomOs v1 byla anotace provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: | ||
| + | |||
| + | Klasifikace proprií, kterou užívají NameTag 2 a 3, však byla upravena, aby byla v souladu s lingvistickým, | ||
| + | |||
| + | ^**Kategorie vyššího řádu\\ (NameTag 2 a 3)**^**Kategorie nižšího řádu\\ (NameTag 2 a 3)** ^**Kategorie nižšího řádu\\ (OnomOs)** | ||
| + | |p - Personal names |pf - first names |AF: first names |Antroponyma (A) | | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | |g - Geographical names |gl - nature areas / objects | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | |i - Institutions | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | |m - Media names |mn - periodical | ||
| + | | ::: | ||
| + | |o - Artifact names |oa - cultural artifacts (books, movies)|CA: art products | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | | ::: | ||
| + | |t - Time expressions | ||
| + | |||
| + | **Tabulka č. 1** – modifikace třídění vlastních jmen v NameTagu 2 a 3 pro účely korpusů OnomOs v1 a v2 | ||
| + | |||
| + | Korpusy OnomOs v1 a OnomOs v2 sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Korpusy vznikly s podporou grantových projektů SGS02/ | ||
| + | |||
| + | ====== Jak vyhledávat propria v korpusech OnomOs v1 a v2 ====== | ||
| + | |||
| + | Vlastní jména lze v korpusech OnomOs v1 a v2 vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu): | ||
| + | |||
| + | '' | ||
| + | |||
| + | Výslednou konkordanci, | ||
| + | |||
| + | '' | ||
| + | |||
| + | V případě potřeby vyhledat kategorie vyššího řádu lze využít např. následující příkaz (v uvozovkách se uvádí první písmeno dané kategorie – A, C, nebo T): | ||
| + | |||
| + | '' | ||
| + | |||
| + | Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 4). | ||
| + | |||
| + | |||
| + | [{{: | ||
| + | **Obrázek č. 3** – konkordance všech výskytů názvů teritorií v korpusu OnomOs v1. | ||
| + | |||
| + | |||
| + | [{{: | ||
| + | **Obrázek č. 4** – distribuce typů toponym v korpusu OnomOs v1. | ||
| + | |||
| + | ====== Jak citovat korpusy OnomOs v1 a v2 ====== | ||
| + | |||
| + | <WRAP round tip 70%> | ||
| + | David, J. – Davidová Glogarová, J. – Klemensová, | ||
| + | </ | ||
| + | |||
| + | <WRAP round tip 70%> | ||
| + | David, J. – Davidová Glogarová, J. – Jeziorský, T. – Křen, M. – Březinová, | ||
| + | </ | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ======Zdroje====== | ||
| + | * Karlík, P. – Nekula, M. – Pleskalová, | ||
| + | * Straková, J. – Straka, M. (2025). // | ||
| + | * Straková, J. – Straka, M. – Hajič, J. (2019): Neural Architectures for Nested NER through Linearization. In: A. Korhonen – D. Traum – L. Màrquez (eds.), // | ||
| + | * Ševčíková, | ||
| + | * Šrámek, R. (1999): //Úvod do obecné onomastiky// | ||
| - | Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů. | ||