Toto je starší verze dokumentu!
WaG: Slovo v kostce
Aplikace Slovo v kostce (Word at a Glance, WaG) slouží k vytvoření základního přehledu o tom, jak se používá zadané slovo či sousloví. Soustředí v sobě informace, které lze získat z korpusů ČNK pomocí dostupných nástrojů, a vytváří tak přehledný profil slova z různých perspektiv.
Aktuálně je WaG implementován pouze pro české zdroje a obsahuje tři základní moduly:
- profil slova či víceslovné jednotky v češtině (modul Vyhledat slovo)
- komparace profilů dvou (či více) českých slov či sousloví (modul Porovnat slova)
- informace o možných překladech zadaného slova do jiných jazyků (modul Hledat ve dvou jazycích)
Výsledky analýzy zadaného slova jsou v aplikaci uspořádány do dlaždic. Každá dlaždice obsahuje informaci o tom, z jakého zdroje údaje pocházejí, a odkaz vedoucí do některé z aplikací pro práci s korpusy ČNK, kde lze zpravidla vyhledat detailnější údaje.
Pro každou dlaždici je v záhlaví k dispozici stručná nápověda, která poskytuje dodatečné informace o zdrojích dat a o možnostech interpretace výsledků. V některých případech lze údaje v dlaždici zobrazit ve formě tabulky či upravit výsledky dodatečným nastavení volitelných parametrů. Dlaždice jsou seskupeny do tematických celků (Frekvenční informace, Psaný jazyk, Mluvený jazyk).
Přehled jednotlivých dlaždic:
Základní charakteristika
Lemma ukazuje, jak jsme zadané slovo interpretovali. Pokud jste zadali slovo v jiném než základním tvaru (například kočku), tak jsme mu základní tvar neboli lemma přiřadili (kočka). Vyhledány jsou pak všechny tvary tohoto slova (tedy kočky, kočce, kočkách atd.). Ostatní interpretace (pokud nějaké jsou) se zobrazí nahoře pod vyhledávacím políčkem, kde lze také vybrat, jakou interpretaci chcete dále analyzovat (např. tvar sní může být zařazen k lemmatu snít nebo k lemmatu sníst).
Slovní druh – zadané slovo bylo interpretováno tak, že patří právě k tomuto slovnímu druhu. Tohle je vhodné překontrolovat, pokud vyhledáváte slovo, které může mít více významů (například slovo stát, které může být slovesem nebo podstatným jménem). Stejně jako v předchozím případě se Vám naše interpretace nemusí líbit a stejně jako v předchozím případě si ji můžete změnit nahoře pod vyhledávacím políčkem.
Frekvenční pásmo názorně ukazuje, jak časté slovo je, jak často ho najdete v českých psaných textech. Čím víc hvězdiček, tím je častější. Pět hvězdiček má velmi malý počet slov, která se ale v psaných textech vyskytují extrémně často, např. ale, já nebo muset. Čtyři hvězdičky mají velmi častá slova jako český, slovo nebo psát. Na druhou stranu jednu hvězdičku mají málo frekventovaná slova, např. chichotání, rozřezávat, pálenice nebo reverzibilní.
Údaj kolikrát v milionu slov (nebo ipm) podobně jako frekvenční pásmo ukazuje, jak často se se slovem setkáte. Zde se ale uvádí přesné číslo – kolikrát ho průměrně najdete v milionu slov. Například hodnota 10 000 znamená, že přibližně každé sté slovo v českých textech bude to, které jste vyhledávali (tedy že ho najdete na jedné stránce třeba i několikrát). Hodnota 1 znamená, že se zadané slovo vyskytuje průměrně jen jednou v milionu slov, tedy že byste museli přečíst třeba i několik tlustých románů, než byste na něj vůbec narazili (Pro představu, jedno z nejčastějších českých slov že má hodnotu ipm 7923, na druhou stranu slovo kvadrant má ipm 1). Tomuto číslu se v lingvistice říká relativní frekvence normovaná na milion slov, anglicky instances per million, zkráceně ipm. Tato zkratka se používá i v dalších nástrojích ČNK, ale také jinde ve světě.
Slova s podobně častým výskytem je seznam slov, které najdete v textech přibližně stejně často jako slovo, které jste si přáli vyhledat. Tento výčet není úplný, jde o náhodný výběr z podobně frekventovaných slov.
Všechny prezentované údaje jsou získány automatickou analýzou – přesnost a věrohodnost frekvenčních informací závisí na tom, jak spolehlivá je anotace v korpusech. Klíčová je přitom především role lemmatizace (tj. přiřazení základního tvaru) a morfologického značkování, jejichž chybovost ani s použitím nejmodernějších nástrojů nemůže být nulová. Pro podrobné a spolehlivé vyhodnocení je tedy klíčové ověřovat výsledky ve zdrojových datech, a to zejména s ohledem na adekvátnost anotace.
Aplikace je dostupná na adrese: https://www.korpus.cz/slovo-v-kostce/ nebo přímo z dotazovacího okna na hlavní straně portálu ČNK.
Jak citovat WaG
Tomáš Machálek (2019): Slovo v kostce – agregátor slovních profilů. FF UK, Praha. Dostupný z WWW: <http://korpus.cz/slovo-v-kostce/>.
Tomáš Machálek (2020): Word at a Glance: Modular Word Profile Aggregator. In: Proceedings of LREC 2020, s. 7011–7016.