Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
manualy:kontext:frekvence [2018/08/03 16:31] – [Běžná frekvenční distribuce] michalskrabal | manualy:kontext:frekvence [2018/08/08 12:18] – jankocek |
---|
- frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) | - frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) |
| |
[{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) FIXME}}] | [{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) }}] |
| |
==== Běžná frekvenční distribuce ==== | ==== Běžná frekvenční distribuce ==== |
Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. | Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. |
| |
[{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro frekvenční distribuci typů textů FIXME}}] | [{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro frekvenční distribuci typů textů }}] |
| |
Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka **Pozice** ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: | Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka **Pozice** ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: |
Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.). | Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.). |
| |
V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace, jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc (pomocí kliknutí a tlačítka Ctrl), bude ve výsledku víc seznamů -- nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů. | V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace, jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc, bude ve výsledku víc seznamů -- nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů. |
| |
I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby **Zahrnout i kategorie bez výskytů** zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Lemma //dřevo// se např. ani jednou neobjevuje v písních (txtype [[seznamy:txtype|SON]]). Je-li tato volba zaškrtnuta, txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí. | I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby **Zahrnout i kategorie bez výskytů** zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Např. lemma //dřevo// se v SYN2010 ani jednou neobjevuje v písních (txtype [[seznamy:txtype|SON]]). Je-li tato volba zaškrtnuta, txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí. |
| |
==== Závislost dvou atributů ==== | ==== Závislost dvou atributů ==== |
[{{ :manualy:kontext:2d-fqdist.png?nolink&450|Výsledek dvoudimenzionální frekvenční distribuce}}] | [{{ :manualy:kontext:2d-fqdist.png?nolink&450|Výsledek dvoudimenzionální frekvenční distribuce}}] |
| |
Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''%%[tag="AC.*"]%%'') jsou typická pro jednotlivé žánry či typy textů. V menu **Frekvenční distribuce** zvolíme volbu **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich. | Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''%%[tag="AC.*"]%%'') jsou typická pro jednotlivé žánry či typy textů (pro SYN2015). V menu **Frekvence → Vlastní** zvolíme možnost **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich. |
| |
Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit [[kurz:konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly. | Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit [[kurz:konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly. |
[{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}] | [{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}] |
| |
Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2010|SYN2010]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''). | Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2015|SYN2015]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''). |
- Frekvenční distribuce slovních tvarů lemmatu //dřevo// bez rozlišování velikosti a s nulovým frekvenčním limitem. | - Frekvenční distribuce slovních tvarů lemmatu //dřevo// bez rozlišování velikosti a s nulovým frekvenčním limitem. |
- Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (včetně hodnot s nulovou frekvencí) | - Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (bez hodnot s nulovou frekvencí) |
| |
U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí filtrů – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání pozitivního a negativního [[manualy:kontext:filtr|filtru]]. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. | U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí [[manualy:kontext:filtr|filtrů]] či [[manualy:kontext:konkordance#vzorek|vzorků]] – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání pozitivního a negativního [[manualy:kontext:filtr|filtru]]. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. |
| |
Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k k rychlé orientaci ve výsledcích -- délka vodorovných čar odpovídá relativní frekvenci slov. | Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k rychlé orientaci ve výsledcích -- délka vodorovných čar odpovídá frekvenci slov. |
| |
Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). | Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). |
[{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] | [{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] |
| |
Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec umožňující rychlé filtrování (v některých případech je pouze znemožněna volba negativního filtru). | Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec s **p/n** umožňující rychlé filtrování (v některých případech je znemožněna volba negativního filtru). |
| |
Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma //dřevo// objevuje v korpusu [[cnk:syn2010|SYN2010]] s četností 3509 v odborné literatuře. Vzhledem k celkovému podílu odborné literatury v korpusu (27 %) to představuje 107,9 výskytů na milion slov (i.p.m.). Ačkoli je tedy absolutní frekvence lemmatu //dřevo// v beletrii i v odborné literatuře srovnatelná (3276 versus 3509), vzhledem k nestejné velikosti těchto částí je relativní frekvence v odborné literatuře téměř dvojnásobná (65,9 versus 107,9). | Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma //dřevo// objevuje v korpusu [[cnk:syn2015|SYN2015]] s četností 2763 v oborové literatuře (NFC). Vzhledem k celkovému podílu oborové literatury v korpusu (33 %) to představuje 70,15 výskytů na milion slov (i.p.m.). |
| |
Stejně jako u jednotek je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. | Stejně jako u jednotek pozičních je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. |
| |
| |