AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manualy:wag [2020/09/23 10:37] – [Přehled jednotlivých prvků] Michal Škrabalmanualy:wag [2021/05/12 14:08] (aktuální) Jan Kocek
Řádek 19: Řádek 19:
  
 ===== Přehled jednotlivých prvků ===== ===== Přehled jednotlivých prvků =====
 +
 +=== Frekvenční informace ===
  
 == Lemma == == Lemma ==
Řádek 42: Řádek 44:
 == Slovní tvary == == Slovní tvary ==
  
-Vyhledány jsou všechny tvary zadaného slova. Tedy pokud jste do vyhledávacího políčka napsali //kočka//, vyhledali jsme i tvary //kočky//, //kočce//, //kočkách// atd. Četnost těchto tvarů je tu graficky znázorněna velikostí písma. Čím větším písmem je zaznamenán učitý tvar, tím častěji na něj v textech narazíte (barvy jsou vybírány náhodně).+Vyhledány jsou všechny tvary zadaného slova. Pokud jste tedy do vyhledávacího políčka napsali //kočka//, vyhledali jsme i pádové tvary //kočky//, //kočce//, //kočkách// atd. Četnost těchto tvarů je graficky znázorněna velikostí písma: čím větším písmem je zaznamenán učitý tvar, tím častěji na něj v textech narazíte (barvy jsou vybírány náhodně).
  
-Pomocí ikonky v pravém horním rohu si můžete dlaždici přepnout do režimu tabulky. Tak se můžete podívat nejenom na relativní četnost (procentuální zastoupení) jednotlivých tvarů, ale i na absolutní počet, tedy kolikrát jsme daný slovní tvar našli v korpusu [[cnk:syn2015|SYN2015]].+Pomocí ikonky v pravém horním rohu si lze dlaždici přepnout do režimu tabulky. Tak se můžete podívat nejenom na relativní četnost (procentuální zastoupení) jednotlivých tvarů, ale i na absolutní počet, tedy kolikrát jsme daný slovní tvar našli v korpusu [[cnk:syn2015|SYN2015]].
  
 == Frekvence podle typu textu == == Frekvence podle typu textu ==
  
-grafu je vidět, v jakém [[pojmy:txtype_group|typu textů]] se vyhledané slovo používá nejčastěji. Údaje jsou uváděny v relativní frekvenci, absolutní četnosti výskytů jsou k dispozici v tabulce.+grafu je patrné, v jakém [[pojmy:txtype_group|typu textů]] se vyhledané slovo používá nejčastěji. Údaje jsou uváděny v relativní frekvenci, absolutní četnosti výskytů jsou k dispozici v tabulce.
  
 Tip: Pro srovnání si můžete vyhledat slova, která se typicky vyskytují v jednom z typů textů, např.: //premiér//, //nebesa//, //experiment//, //prostě//. Tip: Pro srovnání si můžete vyhledat slova, která se typicky vyskytují v jednom z typů textů, např.: //premiér//, //nebesa//, //experiment//, //prostě//.
 +
 +{{:manualy:wag_frekvencni_informace.png?nolink&900|}}
 +
 +
 +=== Psaný jazyk ===
  
 ==Kolokace== ==Kolokace==
  
-[[pojmy:kolokace|Kolokace]] jsou ustálená (tj. nenahodilá) smysluplná spojení slov v blízkém kontextu. Zjednodušeně by se dalo říct, že kolokace jsou spojení slov, která se často vyskytují spolu. Příkladem můžou být třeba kolokace //letní prázdniny//, //zavázat (si) tkaničky//, //hladká mouka//, //vypálit (někomu) rybník// nebo //tmavě modrá//. K nalézání kolokací se užívají statistické metody (tzv. [[pojmy:asociacni_miry|asociační míry]]). Čím větším písmem je dané slovo zaznamenáno, tím silnější kolokaci se zadaným slovem tvoří (barvy jsou vybírány náhodně).+[[pojmy:kolokace|Kolokace]] jsou ustálená (tj. nenahodilá) smysluplná spojení slov v blízkém kontextu. Příkladem můžou být třeba kolokace //letní prázdniny//, //zavázat (si) tkaničky//, //hladká mouka//, //vypálit (někomu) rybník// nebo //tmavě modrá//. K nalézání kolokací se užívají statistické metody (tzv. [[pojmy:asociacni_miry|asociační míry]]). Čím větším písmem je dané slovo zaznamenáno, tím silnější kolokaci se zadaným slovem tvoří (barvy jsou vybírány náhodně).
  
 Kliknutím na ikonku nastavení můžete omezit prohledávaný kontext pouze na levou, či pravou stranu. Najetím kurzoru na konkrétní slovo se podbarví odpovídající příkladová věta v dlaždici vpravo. (Pozor! Kolokace může překračovat hranici věty, a kolokát se tudíž nemusí v příkladové větě objevit.) Kliknutím na ikonku nastavení můžete omezit prohledávaný kontext pouze na levou, či pravou stranu. Najetím kurzoru na konkrétní slovo se podbarví odpovídající příkladová věta v dlaždici vpravo. (Pozor! Kolokace může překračovat hranici věty, a kolokát se tudíž nemusí v příkladové větě objevit.)
Řádek 66: Řádek 73:
 Tloušťka čáry v grafu se odvozuje od tzv. konfidenčního intervalu, který udává, jak spolehlivá data pro výzkum zadaného jevu máme. Čím je čára tlustší, tím méně spolehlivá data pro identifikaci daného trendu máme. Tloušťka čáry v grafu se odvozuje od tzv. konfidenčního intervalu, který udává, jak spolehlivá data pro výzkum zadaného jevu máme. Čím je čára tlustší, tím méně spolehlivá data pro identifikaci daného trendu máme.
  
-Kliknutím na ikonku nastavení můžete výsledky porovnat s vývojem jiného slova (porovnejte např. slova média a tisk).+Kliknutím na ikonku nastavení můžete výsledky porovnat s vývojem jiného slova (porovnejte např. slova //média// //tisk//).
  
 ==Podobně používaná slova== ==Podobně používaná slova==
Řádek 73: Řádek 80:
  
 Pro určení podobných slov byl použit program Wang2Vec (alternativa k známějšímu Word2Vec) s metodou pro výpočet parametrů modelu Noise Contrastive Estimation. Pro určení podobných slov byl použit program Wang2Vec (alternativa k známějšímu Word2Vec) s metodou pro výpočet parametrů modelu Noise Contrastive Estimation.
 +
 +{{:manualy:wag_psany_jazyk.png?nolink&900|}}
 +
 +
 +=== Mluvený jazyk ===
  
 ==Frekvence slova podle mluvčích (sociodemografické údaje)== ==Frekvence slova podle mluvčích (sociodemografické údaje)==
  
-V grafech je vidět, jak často je zadané slovo používáno skupinami mluvčích podle pohlaví, věku a nejvyššího dosaženého vzdělání. Pro představu si můžete vyhledat slova jako //vole// (lemma //vůl//), //princip// nebo //řasenka//. Všechny frekvenční údaje jsou uváděny v ipm, to znamená, že se zaznamenává počet výskytů slova v miliónu slov.+Z grafů je patrné, jak často je zadané slovo používáno skupinami mluvčích podle pohlaví, věku a nejvyššího dosaženého vzdělání. Pro představu si můžete vyhledat slova jako //vole// (lemma //vůl//), //princip// nebo //řasenka//. Všechny frekvenční údaje jsou uváděny v ipm.
  
 ==Oblasti podle tradičního nářečního členění== ==Oblasti podle tradičního nářečního členění==
Řádek 84: Řádek 96:
 ==Ukázka autentické promluvy== ==Ukázka autentické promluvy==
  
-Ukázky použití slova v autentických promluvách. Kliknutím na šipky směrem nahoru a dolů rozšíříte vybranou ukázku, šipka doprava vybere novou ukázku. Kliknutím na ikonku reproduktoru si lze přehrát krátkou část ukázky, pokud chcete přehrát ukázku celou, klikněte na Přehrát vše.+Ukázky použití slova v autentických promluvách, jak je máme zachyceny v korpusu mluvené češtiny [[cnk:oral|Oral]]. Kliknutím na šipky směrem nahoru a dolů rozšíříte vybranou ukázku, šipka doprava vybere novou ukázku. Kliknutím na ikonku reproduktoru si lze přehrát krátkou část ukázky, pokud chcete přehrát ukázku celou, klikněte na Přehrát vše. 
 + 
 + 
 +{{:manualy:wag_mluveny_jazyk.png?nolink&900|}} 
 + 
 +=== Překlad na základě paralelního korpusu === 
 + 
 +==Doložené překlady== 
 + 
 +Dlaždice ukazuje překladové ekvivalenty získané pomocí nástroje [[manualy:treq|Treq]], jenž využívá data paralelního korpusu [[cnk:intercorp|InterCorp]]. [[manualy:treq|Treq]] automaticky vyhodnocuje kandidáty na překladové ekvivalenty a řídí se pravidlem, že čím se častěji konkrétní překlad vyhledávaného slova v korpusu objevil, tím je větší pravděpodobnost, že se běžně používá. Výsledek není tedy ručně ověřován. Velikost písma souvisí s četností překladu daného ekvivalentu.  
 + 
 +==Překlad v různých typech textu== 
 + 
 +Zde se lze podívat na přehled různých překladů podle jednotlivých typů textů, které často souvisí s jiným kontextem. Např. jinak se bude překládat do angličtiny lexém //hustý// v publicistice (//dense//), a jinak ve filmových titulcích (//cool//). Díky tomuto srovnání lze nahlížet nejen na samotný překladový ekvivalent, ale i na jeho vhodnost s ohledem na určitý žánr.    
 + 
 +==Ukázky překladu==
  
 +Ukázky překladu v paralelních textech pocházejí z korpusu [[cnk:intercorp|InterCorp]]. Informační ikonka skrývá údaje o textu (např. autor, rok vydání, typ textu)
  
 ===== Jak citovat WaG ===== ===== Jak citovat WaG =====