Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze | ||
cnk:onomos [2023/11/30 11:34] – vytvořeno jankocek | cnk:onomos [2023/12/05 13:50] (aktuální) – jankocek | ||
---|---|---|---|
Řádek 2: | Řádek 2: | ||
Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů. | Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů. | ||
+ | |||
+ | [{{: | ||
+ | **Obrázek č. 1** – struktura korpusu OnomOs (v tokenech) | ||
+ | |||
+ | Specifikem korpusu je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. Anotace byla provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https:// | ||
+ | |||
+ | ^**Kategorie vyššího řádu\\ (NameTag 2)**^**Kategorie nižšího řádu\\ (NameTag 2)** ^**Kategorie nižšího řádu\\ (OnomOs)** | ||
+ | |p - Personal names |pf - first names |AF: first names |Antroponyma (A) | | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | |g - Geographical names |gl - nature areas / objects | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | |i - Institutions | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | |m - Media names |mn - periodical | ||
+ | | ::: | ||
+ | |o - Artifact names |oa - cultural artifacts (books, movies)|CA: art products | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | | ::: | ||
+ | |t - Time expressions | ||
+ | |||
+ | **Tabulka č. 1** – modifikace třídění vlastních jmen v NameTagu 2 pro účely korpusu OnomOs | ||
+ | |||
+ | Korpus OnomOs sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Projekt vznikl s podporou grantového projektu SGS02/ | ||
+ | |||
+ | ======Jak vyhledávat propria v korpusu OnomOs====== | ||
+ | |||
+ | Vlastní jména lze v korpusu OnomOs vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu): | ||
+ | |||
+ | '' | ||
+ | |||
+ | Výslednou konkordanci, | ||
+ | |||
+ | '' | ||
+ | |||
+ | V případě potřeby vyhledat kategorie vyššího řádu lze využít např. následující příkaz (v uvozovkách se uvádí první písmeno dané kategorie – A, C, nebo T): | ||
+ | |||
+ | '' | ||
+ | |||
+ | Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 3). | ||
+ | |||
+ | |||
+ | [{{: | ||
+ | **Obrázek č. 2** – konkordance všech výskytů názvů teritorií v korpusu OnomOs. | ||
+ | |||
+ | |||
+ | [{{: | ||
+ | **Obrázek č. 3** – distribuce typů toponym v korpusu OnomOs. | ||
+ | |||
+ | ======Jak citovat korpus OnomOs====== | ||
+ | |||
+ | <WRAP round tip 70%> | ||
+ | David, J. – Davidová Glogarová, J. – Klemensová, | ||
+ | </ | ||
+ | |||
+ | |||
+ | ======Zdroje====== | ||
+ | * Karlík, P. – Nekula, M. – Pleskalová, | ||
+ | * Straková, J. – Straka, M. – Hajič, J. (2019): Neural Architectures for Nested NER through Linearization. In: A. Korhonen – D. Traum – L. Màrquez (eds.), // | ||
+ | * Ševčíková, | ||
+ | * Šrámek, R. (1999): //Úvod do obecné onomastiky// | ||
+ |