Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
manualy:wag [2019/09/27 11:09] – vytvořeno vaclavcvrcek | manualy:wag [2020/09/23 10:50] – [Přehled jednotlivých prvků] michalskrabal | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== WaG: Slovo v kostce ====== | ====== WaG: Slovo v kostce ====== | ||
- | Aplikace Slovo v kostce (Word at a Glance) slouží k vytvoření základního přehledu o tom, jak se používá zadané slovo. Soustředí v sobě informace, které lze získat z [[cnk:uvod|korpusů ČNK]] pomocí dostupných nástrojů, a vytváří tak přehledný profil slova z různých perspektiv. | + | {{ : |
- | V současnosti | + | Aplikace **Slovo v kostce** |
- | + profil slova v češtině (modul //Vyhledat slovo//) | + | Aktuálně je WaG implementován pouze pro české zdroje a obsahuje tři základní moduly: |
- | + informace o možných překladech zadaného slova do jiných jazyků (modul //Hledat ve dvou jazycích// | + | |
+ | * profil slova či víceslovné jednotky | ||
+ | * komparace profilů dvou (či více) českých slov či sousloví (modul //Porovnat slova//) | ||
+ | * informace o možných překladech zadaného slova do jiných jazyků (modul //Hledat ve dvou jazycích// | ||
+ | |||
+ | Výsledky analýzy zadaného slova jsou v aplikaci uspořádány do dlaždic. Každá dlaždice obsahuje informaci o tom, z jakého zdroje údaje pocházejí, | ||
+ | |||
+ | Všechny prezentované údaje jsou získány automatickou analýzou -- přesnost a věrohodnost frekvenčních informací závisí na tom, jak spolehlivá je [[pojmy: | ||
+ | |||
+ | Aplikace je dostupná na adrese: **[[https:// | ||
+ | |||
+ | |||
+ | ===== Přehled jednotlivých prvků ===== | ||
+ | |||
+ | == Lemma == | ||
+ | |||
+ | ukazuje, jak jsme zadané slovo interpretovali. Pokud jste zadali slovo v jiném než základním tvaru (například // | ||
+ | |||
+ | == Slovní druh == | ||
+ | |||
+ | Zadané slovo bylo námi určitým způsobem interpretováno a přiřazeno k určitému slovnímu druhu. Výsledek je vhodné překontrolovat, | ||
+ | |||
+ | == Frekvenční pásmo == | ||
+ | |||
+ | názorně ukazuje, jak frekventované dané slovo je, tj. jak často ho najdete v českých // | ||
+ | |||
+ | == Kolikrát v milionu slov == | ||
+ | |||
+ | Údaj podobně jako frekvenční pásmo (nebo [[pojmy: | ||
+ | |||
+ | == Slova s podobně častým výskytem == | ||
+ | |||
+ | je seznam výrazů, které najdete v textech přibližně stejně často jako vámi hledané slovo. Tento výčet není úplný, jde pouze o náhodný výběr z podobně frekventovaných slov. | ||
+ | |||
+ | == Slovní tvary == | ||
+ | |||
+ | Vyhledány jsou všechny tvary zadaného slova. Pokud jste tedy do vyhledávacího políčka napsali //kočka//, vyhledali jsme i pádové tvary //kočky//, //kočce//, // | ||
+ | |||
+ | Pomocí ikonky v pravém horním rohu si lze dlaždici přepnout do režimu tabulky. Tak se můžete podívat nejenom na relativní četnost (procentuální zastoupení) jednotlivých tvarů, ale i na absolutní počet, tedy kolikrát jsme daný slovní tvar našli v korpusu [[cnk: | ||
+ | |||
+ | == Frekvence podle typu textu == | ||
+ | |||
+ | Z grafu je patrné, v jakém [[pojmy: | ||
+ | |||
+ | Tip: Pro srovnání si můžete vyhledat slova, která se typicky vyskytují v jednom z typů textů, např.: // | ||
+ | |||
+ | ==Kolokace== | ||
+ | |||
+ | [[pojmy: | ||
+ | |||
+ | Kliknutím na ikonku nastavení můžete omezit prohledávaný kontext pouze na levou, či pravou stranu. Najetím kurzoru na konkrétní slovo se podbarví odpovídající příkladová věta v dlaždici vpravo. (Pozor! Kolokace může překračovat hranici věty, a kolokát se tudíž nemusí v příkladové větě objevit.) | ||
+ | |||
+ | Příklady použití kolokací v autentických psaných textech vidíte na vedlejší dlaždici **Ukázky kolokací v textech**. Informační ikonka skrývá údaje o textu (např. autor, rok vydání, typ textu). | ||
+ | |||
+ | ==Frekvence výskytu slova v čase== | ||
+ | |||
+ | Graf naznačuje trend v užívání slova za poslední dvě desetiletí, | ||
+ | |||
+ | Tloušťka čáry v grafu se odvozuje od tzv. konfidenčního intervalu, který udává, jak spolehlivá data pro výzkum zadaného jevu máme. Čím je čára tlustší, tím méně spolehlivá data pro identifikaci daného trendu máme. | ||
+ | |||
+ | Kliknutím na ikonku nastavení můžete výsledky porovnat s vývojem jiného slova (porovnejte např. slova //média// a // | ||
+ | |||
+ | ==Podobně používaná slova== | ||
+ | |||
+ | Dlaždice ukazuje slova, která jsou kontextově podobná slovu zadanému. Vzhledem k tomu, že kontext slova lze chápat jako věrné zrcadlo jeho funkce a významu, můžeme předpokládat, | ||
+ | |||
+ | Pro určení podobných slov byl použit program Wang2Vec (alternativa k známějšímu Word2Vec) s metodou pro výpočet parametrů modelu Noise Contrastive Estimation. | ||
+ | |||
+ | ==Frekvence slova podle mluvčích (sociodemografické údaje)== | ||
+ | |||
+ | Z grafů je patrné, jak často je zadané slovo používáno skupinami mluvčích podle pohlaví, věku a nejvyššího dosaženého vzdělání. Pro představu si můžete vyhledat slova jako //vole// (lemma //vůl//), //princip// nebo // | ||
+ | |||
+ | ==Oblasti podle tradičního nářečního členění== | ||
+ | |||
+ | Mapa znázorňuje používání zadaného slova v různých nářečních oblastech ČR. Konkrétní nářeční oblast se zobrazí po najetí kurzoru na růžový ovál s informací o frekvenci. Frekvenční údaje jsou uváděny v ipm. Pro představu si můžete vyhledat slova //slunko// a // | ||
+ | |||
+ | ==Ukázka autentické promluvy== | ||
+ | |||
+ | Ukázky použití slova v autentických promluvách, | ||
+ | |||
+ | |||
+ | ===== Jak citovat WaG ===== | ||
+ | |||
+ | <WRAP round tip 80%> | ||
+ | Tomáš Machálek (2019): Slovo v kostce -- agregátor slovních profilů. FF UK, Praha. Dostupný z WWW: < | ||
+ | |||
+ | Tomáš Machálek (2020): Word at a Glance: Modular Word Profile Aggregator. In: // | ||
+ | </ | ||
- | Aplikace je dostupná na adrese: [[https:// |