Toto je starší verze dokumentu!
WaG: Slovo v kostce
Aplikace Slovo v kostce (Word at a Glance, WaG) slouží k vytvoření základního přehledu o tom, jak se používá zadané slovo či sousloví. Soustředí v sobě informace, které lze získat z korpusů ČNK pomocí dostupných nástrojů, a vytváří tak přehledný profil slova z různých perspektiv.
Aktuálně je WaG implementován pouze pro české zdroje a obsahuje tři základní moduly:
- profil slova či víceslovné jednotky v češtině (modul Vyhledat slovo)
- komparace profilů dvou (či více) českých slov či sousloví (modul Porovnat slova)
- informace o možných překladech zadaného slova do jiných jazyků (modul Hledat ve dvou jazycích)
Výsledky analýzy zadaného slova jsou v aplikaci uspořádány do dlaždic. Každá dlaždice obsahuje informaci o tom, z jakého zdroje údaje pocházejí, a odkaz vedoucí do některé z aplikací pro práci s korpusy ČNK, kde lze zpravidla vyhledat detailnější údaje. Pro každou dlaždici je v záhlaví k dispozici rovněž stručná nápověda, která poskytuje dodatečné informace o zdrojích dat a o možnostech interpretace výsledků. V některých případech lze údaje v dlaždici zobrazit ve formě tabulky či upravit výsledky dodatečným nastavení volitelných parametrů. Dlaždice jsou seskupeny do tematických celků (Frekvenční informace, Psaný jazyk, Mluvený jazyk).
Všechny prezentované údaje jsou získány automatickou analýzou – přesnost a věrohodnost frekvenčních informací závisí na tom, jak spolehlivá je anotace v korpusech. Klíčová je přitom především role lemmatizace (tj. přiřazení základního tvaru) a morfologického značkování, jejichž chybovost ani s použitím nejmodernějších nástrojů nemůže být nulová. Pro podrobné a spolehlivé vyhodnocení je tedy klíčové ověřovat výsledky ve zdrojových datech, a to zejména s ohledem na adekvátnost anotace.
Aplikace je dostupná na adrese: https://www.korpus.cz/slovo-v-kostce/ nebo přímo z dotazovacího okna na hlavní straně portálu ČNK.
Přehled jednotlivých dlaždic:
Základní charakteristika
Lemma ukazuje, jak jsme zadané slovo interpretovali. Pokud jste zadali slovo v jiném než základním tvaru (například kočku), tak jsme mu základní tvar neboli lemma přiřadili (kočka). Vyhledány jsou pak všechny tvary tohoto slova (tedy kočky, kočce, kočkách atd.). Ostatní interpretace (pokud nějaké jsou) se zobrazí nahoře pod vyhledávacím políčkem, kde lze také vybrat, jakou interpretaci chcete dále analyzovat (např. tvar sní může být zařazen k lemmatu snít nebo k lemmatu sníst).
Slovní druh – zadané slovo bylo interpretováno tak, že patří právě k tomuto slovnímu druhu. Tohle je vhodné překontrolovat, pokud vyhledáváte slovo, které může mít více významů (například slovo stát, které může být slovesem nebo podstatným jménem). Stejně jako v předchozím případě se Vám naše interpretace nemusí líbit a stejně jako v předchozím případě si ji můžete změnit nahoře pod vyhledávacím políčkem.
Frekvenční pásmo názorně ukazuje, jak časté slovo je, jak často ho najdete v českých psaných textech. Čím víc hvězdiček, tím je častější. Pět hvězdiček má velmi malý počet slov, která se ale v psaných textech vyskytují extrémně často, např. ale, já nebo muset. Čtyři hvězdičky mají velmi častá slova jako český, slovo nebo psát. Na druhou stranu jednu hvězdičku mají málo frekventovaná slova, např. chichotání, rozřezávat, pálenice nebo reverzibilní.
Údaj kolikrát v milionu slov (nebo ipm) podobně jako frekvenční pásmo ukazuje, jak často se se slovem setkáte. Zde se ale uvádí přesné číslo – kolikrát ho průměrně najdete v milionu slov. Například hodnota 10 000 znamená, že přibližně každé sté slovo v českých textech bude to, které jste vyhledávali (tedy že ho najdete na jedné stránce třeba i několikrát). Hodnota 1 znamená, že se zadané slovo vyskytuje průměrně jen jednou v milionu slov, tedy že byste museli přečíst třeba i několik tlustých románů, než byste na něj vůbec narazili (Pro představu, jedno z nejčastějších českých slov že má hodnotu ipm 7923, na druhou stranu slovo kvadrant má ipm 1). Tomuto číslu se v lingvistice říká relativní frekvence normovaná na milion slov, anglicky instances per million, zkráceně ipm. Tato zkratka se používá i v dalších nástrojích ČNK, ale také jinde ve světě.
Slova s podobně častým výskytem je seznam slov, které najdete v textech přibližně stejně často jako slovo, které jste si přáli vyhledat. Tento výčet není úplný, jde o náhodný výběr z podobně frekventovaných slov.
Slovní tvary Vyhledány jsou všechny tvary zadaného slova. Tedy pokud jste do vyhledávacího políčka napsali kočka, vyhledali jsme i tvary kočky, kočce, kočkách atd. Četnost těchto tvarů je tu graficky znázorněna velikostí písma. Čím větším písmem je zaznamenán učitý tvar, tím častěji na něj v textech narazíte (barvy jsou vybírány náhodně).
Pomocí ikonky v pravém horním rohu si můžete dlaždici přepnout do režimu tabulky. Tak se můžete podívat nejenom na relativní četnost (procentuální zastoupení) jednotlivých tvarů, ale i na absolutní počet, tedy kolikrát jsme daný slovní tvar našli v korpusu SYN2015.
Frekvence podle typu textu
V grafu je vidět, v jakém typu textů se vyhledané slovo používá nejčastěji. Korpus jsme rozdělili na oborovou literaturu, která zahrnuje odborné, populárně naučné a jinak oborově specializované texty, dále publicistiku (tedy noviny a časopisy), beletrii (romány, povídky, poezie a podobně) a konečně mluvený jazyk – přepisy neformálních rozhovorů, které po celé České republice nahrávali naši spolupracovníci.
Pro tyto skupiny textů jsme zjistili průměrný počet výskytů zadaného slova v milionu slov, tedy informaci o tom, jak často se se slovem v daném typu textů setkáte. Průměrný počet výskytů v milionu slov je četnost relativní, tedy vztažená k velikosti korpusu. Pokud Vás zajímá četnost absolutní – tedy kolikrát jsme vámi zadané slovo v daném typu textů našli, pak si v pravém horním rohu dlaždice můžete přepnout zobrazení na tabulku.
Pro srovnání si můžete vyhledat slova, která se typicky vyskytují v jednom z typů textů, např.: premiér, nebesa, experiment, prostě.
Jak citovat WaG
Tomáš Machálek (2019): Slovo v kostce – agregátor slovních profilů. FF UK, Praha. Dostupný z WWW: <http://korpus.cz/slovo-v-kostce/>.
Tomáš Machálek (2020): Word at a Glance: Modular Word Profile Aggregator. In: Proceedings of LREC 2020, s. 7011–7016.