Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
manualy:wag [2019/09/27 11:11] – vaclavcvrcek | manualy:wag [2020/09/20 17:10] – [Přehled jednotlivých prvků] michalskrabal |
---|
====== WaG: Slovo v kostce ====== | ====== WaG: Slovo v kostce ====== |
| |
Aplikace Slovo v kostce (Word at a Glance) slouží k vytvoření základního přehledu o tom, jak se používá zadané slovo. Soustředí v sobě informace, které lze získat z [[cnk:uvod|korpusů ČNK]] pomocí dostupných nástrojů, a vytváří tak přehledný profil slova z různých perspektiv. | {{ :wag-logo_cs.png?nolink&350|}} |
| |
V současnosti (říjen 2019) je WaG implementován pouze pro české zdroje a obsahuje dva základní moduly: | Aplikace Slovo v kostce (Word at a Glance, WaG) slouží k vytvoření základního přehledu o tom, jak se používá zadané slovo či sousloví. Soustředí v sobě informace, které lze získat z [[cnk:uvod|korpusů ČNK]] pomocí dostupných nástrojů, a vytváří tak přehledný profil slova z různých perspektiv. |
| |
* profil slova v češtině (modul //Vyhledat slovo//) | Aktuálně je WaG implementován pouze pro české zdroje a obsahuje tři základní moduly: |
| |
| * profil slova či víceslovné jednotky v češtině (modul //Vyhledat slovo//) |
| * komparace profilů dvou (či více) českých slov či sousloví (modul //Porovnat slova//) |
* informace o možných překladech zadaného slova do jiných jazyků (modul //Hledat ve dvou jazycích//) | * informace o možných překladech zadaného slova do jiných jazyků (modul //Hledat ve dvou jazycích//) |
| |
| Výsledky analýzy zadaného slova jsou v aplikaci uspořádány do dlaždic. Každá dlaždice obsahuje informaci o tom, z jakého zdroje údaje pocházejí, a odkaz vedoucí do některé z aplikací pro práci s korpusy ČNK, kde lze zpravidla vyhledat detailnější údaje. Pro každou dlaždici je v záhlaví k dispozici rovněž stručná nápověda, která poskytuje dodatečné informace o zdrojích dat a o možnostech interpretace výsledků. V některých případech lze údaje v dlaždici zobrazit ve formě tabulky či upravit výsledky dodatečným nastavení volitelných parametrů. Dlaždice jsou seskupeny do tematických celků (Frekvenční informace, Psaný jazyk, Mluvený jazyk). |
| |
| Všechny prezentované údaje jsou získány automatickou analýzou – přesnost a věrohodnost frekvenčních informací závisí na tom, jak spolehlivá je [[pojmy:anotace|anotace]] v korpusech. Klíčová je přitom především role [[pojmy:lemma|lemmatizace]] (tj. přiřazení základního tvaru) a [[pojmy:tag|morfologického značkování]], jejichž chybovost ani s použitím nejmodernějších nástrojů nemůže být nulová. Pro podrobné a spolehlivé vyhodnocení je tedy klíčové ověřovat výsledky ve zdrojových datech, a to zejména s ohledem na adekvátnost anotace. |
| |
Aplikace je dostupná na adrese: **[[https://www.korpus.cz/slovo-v-kostce/]]** nebo přímo z dotazovacího okna na hlavní straně portálu ČNK. | Aplikace je dostupná na adrese: **[[https://www.korpus.cz/slovo-v-kostce/]]** nebo přímo z dotazovacího okna na hlavní straně portálu ČNK. |
| |
Součástí aplikace je kontextová nápověda, která poskytuje dodatečné informace o zdrojích dat a o možnostech interpretace výsledků. | |
| ===== Přehled jednotlivých prvků ===== |
| |
| |
| == Lemma == |
| |
| |
| ukazuje, jak jsme zadané slovo interpretovali. Pokud jste zadali slovo v jiném než základním tvaru (například //kočku//), tak jsme mu základní tvar neboli lemma přiřadili (//kočka//). Vyhledány jsou pak všechny tvary tohoto slova (tedy //kočky//, //kočce//, //kočkách// atd.). Ostatní interpretace (pokud nějaké jsou) se zobrazí nahoře pod vyhledávacím políčkem, kde lze také vybrat, jakou interpretaci chcete dále analyzovat (např. tvar //sní// může být zařazen k lemmatu //snít// nebo k lemmatu //sníst//). |
| |
| == Slovní druh == |
| |
| Zadané slovo bylo interpretováno tak, že patří právě k tomuto slovnímu druhu. Tohle je vhodné překontrolovat, pokud vyhledáváte slovo, které může mít více významů (například slovo //stát//, které může být slovesem nebo podstatným jménem). Stejně jako v předchozím případě se Vám naše interpretace nemusí líbit a stejně jako v předchozím případě si ji můžete změnit nahoře pod vyhledávacím políčkem. |
| |
| == Frekvenční pásmo == |
| |
| názorně ukazuje, jak časté slovo je, jak často ho najdete v českých psaných textech. Čím víc hvězdiček, tím je častější. Pět hvězdiček má velmi malý počet slov, která se ale v psaných textech vyskytují extrémně často, např. //ale//, //já// nebo //muset//. Čtyři hvězdičky mají velmi častá slova jako //český//, //slovo// nebo //psát//. Na druhou stranu jednu hvězdičku mají málo frekventovaná slova, např. //chichotání//, //rozřezávat//, //pálenice// nebo //reverzibilní//. |
| |
| == Kolikrát v milionu slov == |
| |
| Údaj podobně jako frekvenční pásmo (nebo [[pojmy:ipm|ipm]]) ukazuje, jak často se se slovem setkáte. Zde se ale uvádí přesné číslo – kolikrát ho průměrně najdete v milionu slov. Například hodnota 10 000 znamená, že přibližně každé sté slovo v českých textech bude to, které jste vyhledávali (tedy že ho najdete na jedné stránce třeba i několikrát). Hodnota 1 znamená, že se zadané slovo vyskytuje průměrně jen jednou v milionu slov, tedy že byste museli přečíst třeba i několik tlustých románů, než byste na něj vůbec narazili (Pro představu, jedno z nejčastějších českých slov //že// má hodnotu ipm 7923, na druhou stranu slovo //kvadrant// má ipm 1). Tomuto číslu se v lingvistice říká relativní frekvence normovaná na milion slov, anglicky //instances per million//, zkráceně ipm. Tato zkratka se používá i v dalších nástrojích ČNK, ale také jinde ve světě. |
| |
| == Slova s podobně častým výskytem == |
| |
| je seznam slov, které najdete v textech přibližně stejně často jako slovo, které jste si přáli vyhledat. Tento výčet není úplný, jde o náhodný výběr z podobně frekventovaných slov. |
| |
| |
| == Slovní tvary == |
| |
| Vyhledány jsou všechny tvary zadaného slova. Tedy pokud jste do vyhledávacího políčka napsali //kočka//, vyhledali jsme i tvary //kočky//, //kočce//, //kočkách// atd. Četnost těchto tvarů je tu graficky znázorněna velikostí písma. Čím větším písmem je zaznamenán učitý tvar, tím častěji na něj v textech narazíte (barvy jsou vybírány náhodně). |
| |
| Pomocí ikonky v pravém horním rohu si můžete dlaždici přepnout do režimu tabulky. Tak se můžete podívat nejenom na relativní četnost (procentuální zastoupení) jednotlivých tvarů, ale i na absolutní počet, tedy kolikrát jsme daný slovní tvar našli v korpusu [[cnk:syn2015|SYN2015]]. |
| |
| == Frekvence podle typu textu == |
| |
| V grafu je vidět, v jakém [[pojmy:txtype_group|typu textů]] se vyhledané slovo používá nejčastěji. Korpus jsme rozdělili na oborovou literaturu, která zahrnuje odborné, populárně naučné a jinak oborově specializované texty, dále publicistiku (tedy noviny a časopisy), beletrii (romány, povídky, poezie a podobně) a konečně mluvený jazyk – přepisy neformálních rozhovorů, které po celé České republice nahrávali naši spolupracovníci. |
| |
| Pro tyto skupiny textů jsme zjistili průměrný počet výskytů zadaného slova v milionu slov, tedy informaci o tom, jak často se se slovem v daném typu textů setkáte. Průměrný počet výskytů v milionu slov je četnost relativní, tedy vztažená k velikosti korpusu. Pokud Vás zajímá četnost absolutní – tedy kolikrát jsme vámi zadané slovo v daném typu textů našli, pak si v pravém horním rohu dlaždice můžete přepnout zobrazení na tabulku. |
| |
| Pro srovnání si můžete vyhledat slova, která se typicky vyskytují v jednom z typů textů, např.: //premiér//, //nebesa//, //experiment//, //prostě//. |
| |
| ==Kolokace== |
| |
| [[pojmy:kolokace|Kolokace]] jsou ustálená (tj. nenahodilá) smysluplná spojení slov v blízkém kontextu. Zjednodušeně by se dalo říct, že kolokace jsou spojení slov, která se často vyskytují spolu. Příkladem můžou být třeba kolokace //letní prázdniny//, //zavázat (si) tkaničky//, //hladká mouka//, //vypálit (někomu) rybník// nebo //tmavě modrá//. K nalézání kolokací se užívají statistické metody (tzv. [[pojmy:asociacni_miry|asociační míry]]). Čím větším písmem je dané slovo zaznamenáno, tím silnější kolokaci se zadaným slovem tvoří (barvy jsou vybírány náhodně). |
| |
| Kliknutím na ikonku nastavení můžete omezit prohledávaný kontext pouze na levou, či pravou stranu. Najetím kurzoru na konkrétní slovo se podbarví odpovídající příkladová věta v dlaždici vpravo. (Pozor! Kolokace může překračovat hranici věty, a kolokát se tudíž nemusí v příkladové větě objevit.) |
| |
| Příklady použití kolokací v autentických psaných textech vidíte na vedlejší dlaždici **Ukázky kolokací v textech**. Informační ikonka skrývá údaje o textu (např. autor, rok vydání, typ textu). |
| |
| ==Frekvence výskytu slova v čase== |
| |
| Graf naznačuje trend v užívání slova za poslední dvě desetiletí, především však v jazyce publicistiky (která tvoří cca 90 % korpusu SYN verze 7). Hodnoty za jednotlivé roky zaznamenávají [[pojmy:ipm|počet výskytů v milionu slov]]. |
| |
| Tloušťka čáry v grafu se odvozuje od tzv. konfidenčního intervalu, který udává, jak spolehlivá data pro výzkum zadaného jevu máme. Čím je čára tlustší, tím méně spolehlivá data pro identifikaci daného trendu máme. |
| |
| Kliknutím na ikonku nastavení můžete výsledky porovnat s vývojem jiného slova (porovnejte např. slova média a tisk). |
| |
| ==Podobně používaná slova== |
| |
| Dlaždice ukazuje slova, která jsou kontextově podobná slovu zadanému. Vzhledem k tomu, že kontext slova lze chápat jako věrné zrcadlo jeho funkce a významu, můžeme předpokládat, že slova vstupující do společných kontextů mají také podobný význam či funkci. |
| |
| Pro určení podobných slov byl použit program Wang2Vec (alternativa k známějšímu Word2Vec) s metodou pro výpočet parametrů modelu Noise Contrastive Estimation. |
| |
| ==Frekvence slova podle mluvčích (sociodemografické údaje)== |
| |
| V grafech je vidět, jak často je zadané slovo používáno skupinami mluvčích podle pohlaví, věku a nejvyššího dosaženého vzdělání. Pro představu si můžete vyhledat slova jako //vole// (lemma //vůl//), //princip// nebo //řasenka//. Všechny frekvenční údaje jsou uváděny v ipm, to znamená, že se zaznamenává počet výskytů slova v miliónu slov. |
| |
| ==Oblasti podle tradičního nářečního členění== |
| |
| Mapa znázorňuje používání zadaného slova v různých nářečních oblastech ČR. Konkrétní nářeční oblast se zobrazí po najetí kurzoru na růžový ovál s informací o frekvenci. Frekvenční údaje jsou uváděny v ipm. Pro představu si můžete vyhledat slova //slunko// a //sluníčko//, případně dobře známou dvojici //hele// a //tož//, případně podkrkonošské //kyselo//. Vymezení jednotlivých oblastí je kombinací tradičního nářečního členění podle Jaromíra Běliče a dělení používaného v [[https://cja.ujc.cas.cz/|Českém jazykovém atlase]]. Pomocí ikonky v pravém horním rohu si můžete dlaždici přepnout do režimu tabulky. |
| |
| ==Ukázka autentické promluvy== |
| |
| Ukázky použití slova v autentických promluvách. Kliknutím na šipky směrem nahoru a dolů rozšíříte vybranou ukázku, šipka doprava vybere novou ukázku. Kliknutím na ikonku reproduktoru si lze přehrát krátkou část ukázky, pokud chcete přehrát ukázku celou, klikněte na Přehrát vše. |
| |
| |
| ===== Jak citovat WaG ===== |
| |
| <WRAP round tip 80%> |
| Tomáš Machálek (2019): Slovo v kostce -- agregátor slovních profilů. FF UK, Praha. Dostupný z WWW: <http://korpus.cz/slovo-v-kostce/>. |
| |
| Tomáš Machálek (2020): Word at a Glance: Modular Word Profile Aggregator. In: //[[http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.866.pdf|Proceedings of LREC 2020]]//, s. 7011–7016. |
| </WRAP> |