Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
manualy:kontext:frekvence [2018/08/03 16:58] – [Frekvenční seznam (výpis)] vaclavcvrcek | manualy:kontext:frekvence [2020/10/05 09:37] – [Závislost dvou atributů] michalskrabal |
---|
===== Vlastní nastavení frekvenční distribuce ===== | ===== Vlastní nastavení frekvenční distribuce ===== |
| |
Formulář, který se zobrazí po kliknutí na volbu **Frekvence → Vlastní**, má tři možnosti: | Formulář, který se zobrazí po kliknutí na volbu **Frekvence → Vlastní** (resp. po klávesové zkratce ''Shift'' + ''F'' na obrazovce s konkordancí), má tři možnosti: |
| |
- běžnou frekvenční distribuci (slouží k analýze [[pojmy:atributy_pozicni|pozičních atributů]], jako je [[pojmy:word|word]], [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod., v rámci KWIC nebo v jeho okolí pomocí přidání dalších úrovní) | - běžnou frekvenční distribuci (slouží k analýze [[pojmy:atributy_pozicni|pozičních atributů]], jako je [[pojmy:word|word]], [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod., v rámci KWIC nebo v jeho okolí pomocí přidání dalších úrovní) |
- frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) | - frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) |
| |
[{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) FIXME}}] | [{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) }}] |
| |
==== Běžná frekvenční distribuce ==== | ==== Běžná frekvenční distribuce ==== |
Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. | Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. |
| |
[{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro frekvenční distribuci typů textů FIXME}}] | [{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro frekvenční distribuci typů textů }}] |
| |
Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka **Pozice** ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: | Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka **Pozice** ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: |
Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''%%[tag="AC.*"]%%'') jsou typická pro jednotlivé žánry či typy textů (pro SYN2015). V menu **Frekvence → Vlastní** zvolíme možnost **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich. | Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''%%[tag="AC.*"]%%'') jsou typická pro jednotlivé žánry či typy textů (pro SYN2015). V menu **Frekvence → Vlastní** zvolíme možnost **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich. |
| |
Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit [[kurz:konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly. | Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit [[pojmy:konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly. |
| |
===== Frekvenční seznam (výpis) ===== | ===== Frekvenční seznam (výpis) ===== |
| |
[{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// FIXME}}] | [{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}] |
| |
Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2015|SYN2015]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''). | Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2015|SYN2015]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''). |
Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). | Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). |
| |
[{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// FIXME}}] | [{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] |
| |
Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec s **p/n** umožňující rychlé filtrování (v některých případech je znemožněna volba negativního filtru). | Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec s **p/n** umožňující rychlé filtrování (v některých případech je znemožněna volba negativního filtru). |