Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:onomos [2023/11/30 17:04] – jankocek | cnk:onomos [2023/12/05 13:50] (aktuální) – jankocek | ||
---|---|---|---|
Řádek 3: | Řádek 3: | ||
Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů. | Korpus OnomOs je lingvisticky zpracovaná databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Obsahuje vždy jedno číslo z každé dekády, v níž (Rudé) Právo vycházelo. Do korpusu byly zahrnuty texty, v nichž dominuje jazyková složka; vypouštěny byly proto např. reklamy a inzeráty, programy kin, divadel a rádia, některé typy textů ze sportovní rubriky (např. přehledy výsledků a soupisky hráčů), komiksy či křížovky. Složení korpusu je podrobněji představeno na obrázku č. 1. Celkem korpus obsahuje 255 149 tokenů. | ||
- | {{: | + | [{{: |
- | + | **Obrázek č. 1** – struktura korpusu OnomOs (v tokenech) | |
- | Obrázek č. 1 – struktura korpusu OnomOs (v tokenech) | + | |
Specifikem korpusu je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. Anotace byla provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https:// | Specifikem korpusu je značkování vlastních jmen, které by v budoucnu mohlo sloužit jako metodologické východisko pro projekty podobného typu. Anotace byla provedena pomocí softwaru NameTag 2 (Straková – Straka – Hajič, 2019; Ševčíková – Žabokrtský – Krůza, 2007; viz zde: https:// | ||
- | ^**Kategorie vyššího řádu (NameTag 2)**^**Kategorie nižšího řádu (NameTag 2)** ^**Kategorie nižšího řádu (OnomOs)** | + | ^**Kategorie vyššího řádu\\ (NameTag 2)**^**Kategorie nižšího řádu\\ (NameTag 2)** ^**Kategorie nižšího řádu\\ (OnomOs)** |
|p - Personal names |pf - first names |AF: first names |Antroponyma (A) | | |p - Personal names |pf - first names |AF: first names |Antroponyma (A) | | ||
- | | ::: | + | | ::: |
| ::: | | ::: | ||
| ::: | | ::: | ||
Řádek 17: | Řádek 16: | ||
| ::: | | ::: | ||
|g - Geographical names |gl - nature areas / objects | |g - Geographical names |gl - nature areas / objects | ||
- | | ::: | + | | ::: |
| ::: | | ::: | ||
- | | ::: | + | | ::: |
| ::: | | ::: | ||
- | | ::: | + | | ::: |
- | | ::: | + | | ::: |
| ::: | | ::: | ||
| ::: | | ::: | ||
Řádek 39: | Řádek 38: | ||
|t - Time expressions | |t - Time expressions | ||
- | Tabulka č. 1 – modifikace třídění vlastních jmen v NameTagu 2 pro účely korpusu OnomOs | + | **Tabulka č. 1** – modifikace třídění vlastních jmen v NameTagu 2 pro účely korpusu OnomOs |
Korpus OnomOs sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Projekt vznikl s podporou grantového projektu SGS02/ | Korpus OnomOs sestavili badatelé „ostravské onomastické školy“, která se v rámci výzkumu Katedry českého jazyka Filozofické fakulty Ostravské univerzity zaměřuje na implementaci kvantitativnělingvistických metod do vědy o vlastních jménech. Projekt vznikl s podporou grantového projektu SGS02/ | ||
- | ===== Jak vyhledávat propria v korpusu OnomOs ===== | + | ======Jak vyhledávat propria v korpusu OnomOs====== |
Vlastní jména lze v korpusu OnomOs vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu): | Vlastní jména lze v korpusu OnomOs vyhledat např. pomocí následujícího příkazu v CQL (v uvozovkách se uvádí kategorie nižšího řádu): | ||
- | [] within <ne type=" | + | '' |
Výslednou konkordanci, | Výslednou konkordanci, | ||
- | [] within <ne type=" | + | '' |
V případě potřeby vyhledat kategorie vyššího řádu lze využít např. následující příkaz (v uvozovkách se uvádí první písmeno dané kategorie – A, C, nebo T): | V případě potřeby vyhledat kategorie vyššího řádu lze využít např. následující příkaz (v uvozovkách se uvádí první písmeno dané kategorie – A, C, nebo T): | ||
- | [] within <ne type=" | + | '' |
Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 3). | Alternativním postupem je zobrazení úplného frekvenčního seznamu kategorií nižšího řádu. V takovém případě vyhledáme všechna slova v korpusu (= ponecháme dotazový řádek prázdný) a na liště zvolíme „Frekvence“ a „Vlastní…“. V oknu frekvenční distribuce vybereme možnost „Podle typů textů“ a zaškrtneme „ne.type“. Podobný postup lze uplatnit také při práci se subkorpusy (např. s prvorepublikovými čísly Rudého práva) nebo při zobrazení frekvencí jednotlivých kategorií nižšího řádu pro vybranou kategorii vyššího řádu (např. toponyma; viz obrázek č. 3). | ||
+ | |||
+ | [{{: | ||
+ | **Obrázek č. 2** – konkordance všech výskytů názvů teritorií v korpusu OnomOs. | ||
+ | |||
+ | |||
+ | [{{: | ||
+ | **Obrázek č. 3** – distribuce typů toponym v korpusu OnomOs. | ||
+ | |||
+ | ======Jak citovat korpus OnomOs====== | ||
+ | |||
+ | <WRAP round tip 70%> | ||
+ | David, J. – Davidová Glogarová, J. – Klemensová, | ||
+ | </ | ||
+ | |||
+ | |||
+ | ======Zdroje====== | ||
+ | * Karlík, P. – Nekula, M. – Pleskalová, | ||
+ | * Straková, J. – Straka, M. – Hajič, J. (2019): Neural Architectures for Nested NER through Linearization. In: A. Korhonen – D. Traum – L. Màrquez (eds.), // | ||
+ | * Ševčíková, | ||
+ | * Šrámek, R. (1999): //Úvod do obecné onomastiky// | ||