AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manualy:wag [2020/09/19 10:00] – [WaG: Slovo v kostce] Michal Škrabalmanualy:wag [2021/05/12 14:08] (aktuální) Jan Kocek
Řádek 3: Řádek 3:
 {{ :wag-logo_cs.png?nolink&350|}} {{ :wag-logo_cs.png?nolink&350|}}
  
-Aplikace Slovo v kostce (Word at a Glance, WaG) slouží k vytvoření základního přehledu o tom, jak se používá zadané slovo či sousloví. Soustředí v sobě informace, které lze získat z [[cnk:uvod|korpusů ČNK]] pomocí dostupných nástrojů, a vytváří tak přehledný profil slova z různých perspektiv. +Aplikace **Slovo v kostce** (Word at a Glance, WaG) slouží k vytvoření základního přehledu o tom, jak se používá zadané slovo či sousloví. Soustředí v sobě informace, které lze získat z [[cnk:uvod|korpusů ČNK]] pomocí dostupných nástrojů, a vytváří tak přehledný profil slova z různých perspektiv. 
  
 Aktuálně je WaG implementován pouze pro české zdroje a obsahuje tři základní moduly: Aktuálně je WaG implementován pouze pro české zdroje a obsahuje tři základní moduly:
Řádek 11: Řádek 11:
   * informace o možných překladech zadaného slova do jiných jazyků (modul //Hledat ve dvou jazycích//)   * informace o možných překladech zadaného slova do jiných jazyků (modul //Hledat ve dvou jazycích//)
  
-Výsledky analýzy zadaného slova jsou v aplikaci uspořádány do dlaždic. Každá dlaždice obsahuje informaci o tom, z jakého zdroje údaje pocházejí, odkaz vedoucí do některé z aplikací pro práci s korpusy ČNK, kde lze zpravidla vyhledat detailnější údaje.+Výsledky analýzy zadaného slova jsou v aplikaci uspořádány do dlaždic. Každá dlaždice obsahuje informaci o tom, z jakého zdroje údaje pocházejí, odkaz vedoucí do některé z aplikací pro práci s korpusy ČNK, kde lze zpravidla vyhledat detailnější údaje, a rovněžstručná nápověda, která poskytuje dodatečné informace o zdrojích dat a o možnostech interpretace výsledků. V některých případech lze údaje v dlaždici zobrazit ve formě tabulky či upravit výsledky dodatečným nastavení volitelných parametrů. Dlaždice jsou seskupeny do tematických celků (Frekvenční informace, Psaný jazyk, Mluvený jazyk).
  
-Pro každou dlaždici je záhlaví k dispozici stručná nápovědakterá poskytuje dodatečné informace o zdrojích dat a o možnostech interpretace výsledkůV některých ípadech lze údaje v dlaždici zobrazit ve formě tabulky čupravit výsledky dodatečným nastavení volitelných parametrů. Dlaždice jsou seskupeny do tematických celků (Frekvenční informacePsaný jazyk, Mluvený jazyk).+Všechny prezentované údaje jsou získány automatickou analýzou -- přesnost a rohodnost frekvenčních informací závisí na tomjak spolehlivá je [[pojmy:anotace|anotace]] v korpusech. Klíčová je přitom především role [[pojmy:lemma|lemmatizace]] (tj. přiřazení základního tvaru) a [[pojmy:tag|morfologického značkování]], jejichž chybovost ani s použitím nejmodernějších nástrojů nemůže být nulová. Pro podrobné a spolehlivé vyhodnocení je tedy klíčové ověřovat výsledky ve zdrojových datecha to zejména s ohledem na adekvátnost anotace
  
-**Přehled jednotlivých dlaždic:**+Aplikace je dostupná na adrese: **[[https://www.korpus.cz/slovo-v-kostce/]]** nebo přímo z dotazovacího okna na hlavní straně portálu ČNK.
  
-**Základní charakteristika** 
  
-**Lemma** ukazuje, jak jsme zadané slovo interpretovali. Pokud jste zadali slovo v jiném než základním tvaru (například //kočku//), tak jsme mu základní tvar neboli lemma přiřadili (//kočka//). Vyhledány jsou pak všechny tvary tohoto slova (tedy //kočky//, //kočce//, //kočkách// atd.). Ostatní interpretace (pokud nějaké jsou) se zobrazí nahoře pod vyhledávacím políčkem, kde lze také vybrat, jakou interpretaci chcete dále analyzovat (např. tvar //sní// může být zařazen k lemmatu //snít// nebo k lemmatu //sníst//).+===== Přehled jednotlivých prvků =====
  
-**Slovní druh** – zadané slovo bylo interpretováno tak, že patří právě k tomuto slovnímu druhu. Tohle je vhodné překontrolovat, pokud vyhledáváte slovo, které může mít více významů (například slovo //stát//, které může být slovesem nebo podstatným jménem). Stejně jako v předchozím případě se Vám naše interpretace nemusí líbit a stejně jako v předchozím případě si ji můžete změnit nahoře pod vyhledávacím políčkem.+=== Frekvenční informace ===
  
-**Frekvenční pásmo** názorně ukazuje, jak časté slovo je, jak často ho najdete v českých psaných textech. Čím víc hvězdiček, tím je častější. Pět hvězdiček má velmi malý počet slov, která se ale v psaných textech vyskytují extrémně často, např. //ale//, //já// nebo //muset//. Čtyři hvězdičky mají velmi častá slova jako //český//, //slovo// nebo //psát//. Na druhou stranu jednu hvězdičku mají málo frekventovaná slova, např. //chichotání//, //rozřezávat//, //pálenice// nebo //reverzibilní//.+== Lemma ==
  
-Údaj **kolikrát v milionu slov** (nebo [[pojmy:ipm|ipm]]) podobně jako frekvenční pásmo ukazuje, jak často se se slovem setkáteZde se ale uvádí přesné číslo – kolikrát ho průměrně najdete milionu slov. Například hodnota 10 000 znamenáže ibližně každé sté slovo v českých textech bude tokteré jste vyhledávali (tedy že ho najdete na jedné stránce třeba i několikrát). Hodnota 1 znamená, že se zadané slovo vyskytuje průměrně jen jednou v milionu slov, tedy že byste museli přečíst třeba i několik tlustých románůnež byste na něj vůbec narazili (Pro představu, jedno z nejčastějších českých slov //že// má hodnotu ipm 7923, na druhou stranu slovo //kvadrant// má ipm 1). Tomuto číslu se v lingvistice říká relativní frekvence normovaná na milion slov, anglicky instances per million, zkráceně ipm. Tato zkratka se používá i v dalších nástrojích ČNK, ale také jinde ve světě.+ukazuje, jak jsme zadané slovo interpretovaliPokud jste zadali slovo jiném než základním tvaru (například //kočku//)základní tvar neboli lemma jsme mu iřadili (//kočka//). Vyhledány jsou pak všechny tvary tohoto slova (tedy //kočky////kočce//, //kočkách// atd.). Případné ostatní interpretace se zobrazí nahoře pod vyhledávacím políčkem, kde lze také vybratjakou interpretaci chcete dále analyzovat (např. tvar //sní// může být zařazen k lemmatu //snít// nebo k lemmatu //sníst//).
  
-**Slova s podobně častým výskytem** je seznam slov, které najdete v textech přibližně stejně často jako slovo, které jste si přáli vyhledat. Tento výčet není úplný, jde o náhodný výběr z podobně frekventovaných slov. +== Slovní druh ==
  
-Všechny prezentované údaje jsou získány automatickou analýzou – esnost a věrohodnost frekvenčních informací závisí na tom, jak spolehlivá je [[pojmy:anotace|anotace]] v korpusechKlíčová je přitom především role [[pojmy:lemma|lemmatizace]] (tj. přiřazení základního tvaru) a [[pojmy:tag|morfologického značkování]]jejichž chybovost ani s použitím nejmodernějších nástrojů nemůže být nulováPro podrobné a spolehlivé vyhodnocení je tedy klíčové ověřovat výsledky ve zdrojových datech, a to zejména s ohledem na adekvátnost anotace+Zadané slovo bylo námi určitým způsobem interpretováno a iřazeno k určitému slovnímu druhuVýsledek je vhodné ekontrolovat, zvláště hledáte-li slovokteré může mít více významů (například //stát// může být slovesem nebo podstatným jménem)Podobně jako v předchozím případě se vám naše interpretace nemusí líbit, vtom případě si ji můžete snadno změnit nahoře pod vyhledávacím políčkem.
  
-Aplikace je dostupná na adrese: **[[https://www.korpus.cz/slovo-v-kostce/]]** nebo ímo z dotazovacího okna na hlavní straně portálu ČNK.+== Frekvenční pásmo == 
 + 
 +názorně ukazuje, jak frekventované dané slovo je, tj. jak často ho najdete v českých //psaných// textech. Čím víc má hvězdiček, tím je častější. Pět hvězdiček má jen velmi malý počet slov, která se ale v psaných textech vyskytují mimořádně často, např. //ale//, //já// nebo //muset//. Čtyři hvězdičky mají velmi častá slova jako //český//, //slovo// nebo //psát//. Naopak jednu hvězdičku mají málo frekventovaná slova, např. //chichotání//, //rozřezávat//, //pálenice// nebo //reverzibilní//
 + 
 +== Kolikrát v milionu slov == 
 + 
 +Údaj podobně jako frekvenční pásmo (nebo [[pojmy:ipm|ipm]]) ukazuje, jak často se s daným slovem setkáte -- zde v přepočtu na korpus o velikosti 1 milion slov. Například hodnota 10 000 znamená, že přibližně každé sté slovo v českých textech bude vámi hledaný výraz, tedy že ho najdete na jedné stránce třeba i několikrát. Hodnota 1 znamená, že se zadané slovo vyskytuje průměrně v milionu slov jen jednou , tzn. že byste museli přečíst třeba i několik tlustých románů, než byste na něj vůbec narazili. (Pro představu, jedno z nejčastějších českých slov //že// má hodnotu ipm 7923, na druhou stranu slovo //kvadrant// má ipm 1)  
 + 
 +== Slova s podobně častým výskytem == 
 + 
 +je seznam výrazů, které najdete v textech přibližně stejně často jako vámi hledané slovo. Tento výčet není úplný, jde pouze o náhodný výběr z podobně frekventovaných slov.  
 + 
 +== Slovní tvary == 
 + 
 +Vyhledány jsou všechny tvary zadaného slova. Pokud jste tedy do vyhledávacího políčka napsali //kočka//, vyhledali jsme i pádové tvary //kočky//, //kočce//, //kočkách// atd. Četnost těchto tvarů je graficky znázorněna velikostí písmačím větším písmem je zaznamenán učitý tvar, tím častěji na něj v textech narazíte (barvy jsou vybírány náhodně). 
 + 
 +Pomocí ikonky v pravém horním rohu si lze dlaždici přepnout do režimu tabulky. Tak se můžete podívat nejenom na relativní četnost (procentuální zastoupení) jednotlivých tvarů, ale i na absolutní počet, tedy kolikrát jsme daný slovní tvar našli v korpusu [[cnk:syn2015|SYN2015]]. 
 + 
 +== Frekvence podle typu textu == 
 + 
 +Z grafu je patrné, v jakém [[pojmy:txtype_group|typu textů]] se vyhledané slovo používá nejčastěji. Údaje jsou uváděny v relativní frekvenci, absolutní četnosti výskytů jsou k dispozici v tabulce. 
 + 
 +Tip: Pro srovnání si můžete vyhledat slova, která se typicky vyskytují v jednom z typů textů, např.: //premiér//, //nebesa//, //experiment//, //prostě//
 + 
 +{{:manualy:wag_frekvencni_informace.png?nolink&900|}} 
 + 
 + 
 +=== Psaný jazyk === 
 + 
 +==Kolokace== 
 + 
 +[[pojmy:kolokace|Kolokace]] jsou ustálená (tj. nenahodilá) smysluplná spojení slov v blízkém kontextu. Příkladem můžou být třeba kolokace //letní prázdniny//, //zavázat (si) tkaničky//, //hladká mouka//, //vypálit (někomu) rybník// nebo //tmavě modrá//. K nalézání kolokací se užívají statistické metody (tzv. [[pojmy:asociacni_miry|asociační míry]]). Čím větším písmem je dané slovo zaznamenáno, tím silnější kolokaci se zadaným slovem tvoří (barvy jsou vybírány náhodně). 
 + 
 +Kliknutím na ikonku nastavení můžete omezit prohledávaný kontext pouze na levou, či pravou stranu. Najetím kurzoru na konkrétní slovo se podbarví odpovídající příkladová věta v dlaždici vpravo. (Pozor! Kolokace může překračovat hranici věty, a kolokát se tudíž nemusí v příkladové větě objevit.) 
 + 
 +Příklady použití kolokací v autentických psaných textech vidíte na vedlejší dlaždici **Ukázky kolokací v textech**. Informační ikonka skrývá údaje o textu (např. autor, rok vydání, typ textu).  
 + 
 +==Frekvence výskytu slova v čase== 
 + 
 +Graf naznačuje trend v užívání slova za poslední dvě desetiletí, především však v jazyce publicistiky (která tvoří cca 90 % korpusu SYN verze 7). Hodnoty za jednotlivé roky zaznamenávají [[pojmy:ipm|počet výskytů v milionu slov]]. 
 + 
 +Tloušťka čáry v grafu se odvozuje od tzv. konfidenčního intervalu, který udává, jak spolehlivá data pro výzkum zadaného jevu máme. Čím je čára tlustší, tím méně spolehlivá data pro identifikaci daného trendu máme. 
 + 
 +Kliknutím na ikonku nastavení můžete výsledky porovnat s vývojem jiného slova (porovnejte např. slova //média// a //tisk//). 
 + 
 +==Podobně používaná slova== 
 + 
 +Dlaždice ukazuje slova, která jsou kontextově podobná slovu zadanému. Vzhledem k tomu, že kontext slova lze chápat jako věrné zrcadlo jeho funkce a významu, můžeme předpokládat, že slova vstupující do společných kontextů mají také podobný význam či funkci. 
 + 
 +Pro určení podobných slov byl použit program Wang2Vec (alternativa k známějšímu Word2Vec) s metodou pro výpočet parametrů modelu Noise Contrastive Estimation. 
 + 
 +{{:manualy:wag_psany_jazyk.png?nolink&900|}} 
 + 
 + 
 +=== Mluvený jazyk === 
 + 
 +==Frekvence slova podle mluvčích (sociodemografické údaje)== 
 + 
 +Z grafů je patrné, jak často je zadané slovo používáno skupinami mluvčích podle pohlaví, věku a nejvyššího dosaženého vzdělání. Pro představu si můžete vyhledat slova jako //vole// (lemma //vůl//), //princip// nebo //řasenka//. Všechny frekvenční údaje jsou uváděny v ipm. 
 + 
 +==Oblasti podle tradičního nářečního členění== 
 + 
 +Mapa znázorňuje používání zadaného slova v různých nářečních oblastech ČR. Konkrétní nářeční oblast se zobrazí po najetí kurzoru na růžový ovál s informací o frekvenci. Frekvenční údaje jsou uváděny v ipm. Pro představu si můžete vyhledat slova //slunko// a //sluníčko//, případně dobře známou dvojici //hele// a //tož//, případně podkrkonošské //kyselo//. Vymezení jednotlivých oblastí je kombinací tradičního nářečního členění podle Jaromíra Běliče a dělení používaného v [[https://cja.ujc.cas.cz/|Českém jazykovém atlase]]. Pomocí ikonky pravém horním rohu si můžete dlaždici přepnout do režimu tabulky. 
 + 
 +==Ukázka autentické promluvy== 
 + 
 +Ukázky použití slova v autentických promluvách, jak je máme zachyceny v korpusu mluvené češtiny [[cnk:oral|Oral]]. Kliknutím na šipky směrem nahoru a dolů rozšíříte vybranou ukázku, šipka doprava vybere novou ukázku. Kliknutím na ikonku reproduktoru si lze ehrát krátkou část ukázky, pokud chcete přehrát ukázku celou, klikněte na Přehrát vše. 
 + 
 + 
 +{{:manualy:wag_mluveny_jazyk.png?nolink&900|}} 
 + 
 +=== Překlad na základě paralelního korpusu === 
 + 
 +==Doložené překlady== 
 + 
 +Dlaždice ukazuje překladové ekvivalenty získané pomocí nástroje [[manualy:treq|Treq]], jenž využívá data paralelního korpusu [[cnk:intercorp|InterCorp]][[manualy:treq|Treq]] automaticky vyhodnocuje kandidáty na překladové ekvivalenty a řídí se pravidlem, že čím se častěji konkrétní překlad vyhledávaného slova v korpusu objevil, tím je větší pravděpodobnost, že se běžně používá. Výsledek není tedy ručně ověřován. Velikost písma souvisí s četností překladu daného ekvivalentu.  
 + 
 +==Překlad v různých typech textu== 
 + 
 +Zde se lze podívat na přehled různých překladů podle jednotlivých typů textů, které často souvisí s jiným kontextem. Např. jinak se bude překládat do angličtiny lexém //hustý// v publicistice (//dense//), a jinak ve filmových titulcích (//cool//). Díky tomuto srovnání lze nahlížet nejen na samotný překladový ekvivalent, ale i na jeho vhodnost s ohledem na určitý žánr.    
 + 
 +==Ukázky překladu==
  
 +Ukázky překladu v paralelních textech pocházejí z korpusu [[cnk:intercorp|InterCorp]]. Informační ikonka skrývá údaje o textu (např. autor, rok vydání, typ textu)
  
 ===== Jak citovat WaG ===== ===== Jak citovat WaG =====