Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
manualy:kontext:frekvence [2018/08/03 16:24] – [Vlastní nastavení frekvenční distribuce] vaclavcvrcek | manualy:kontext:frekvence [2018/08/08 12:18] – jankocek |
---|
- frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) | - frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) |
| |
[{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) FIXME}}] | [{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) }}] |
| |
==== Běžná frekvenční distribuce ==== | ==== Běžná frekvenční distribuce ==== |
| |
Běžná frekvenční distribuce umožňuje počítat frekvenční distribuci na libovolné pozici konkordance v rozmezí 6 pozic nalevo až 6 pozic napravo od [[pojmy:kwic|KWICu]]. Ve formuláři je nejprve třeba zvolit, jaký **atribut** chceme ve frekvenční distribuci počítat (např. v korpusech [[cnk:syn|řady SYN]] jsou k dispozici základní [[pojmy:atributy_pozicni|poziční atributy]] ''word'', ''lemma'', ''tag'', ''lc'', ''pos'', dále pak specifické atributy ''k'', ''g'', ''c''). | Běžná frekvenční distribuce umožňuje počítat frekvenční distribuci na libovolné pozici konkordance v rozmezí 6 pozic nalevo až 6 pozic napravo od [[pojmy:kwic|KWICu]]. Ve formuláři je nejprve třeba zvolit, jaký **atribut** chceme ve frekvenční distribuci počítat (např. v korpusech [[cnk:syn|řady SYN]] jsou k dispozici základní [[pojmy:atributy_pozicni|poziční atributy]] word, lemma, tag, lc, pos). |
| |
Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. | Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. |
| |
[{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro frekvenční distribuci typů textů}}] | [{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro frekvenční distribuci typů textů }}] |
| |
Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka //pozice// ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: | Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka **Pozice** ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: |
| |
^ konkordance | místnosti | . | Byly | z | těžkého | tmavého | **<fc #FF0000>dřeva</fc>** | a | zlověstně | zaskřípaly | . | Poslepu | jsem | | ^ konkordance | místnosti | . | Byly | z | těžkého | tmavého | **<fc #FF0000>dřeva</fc>** | a | zlověstně | zaskřípaly | . | Poslepu | jsem | |
^ pozice (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | <fc #FF0000>KWIC</fc> | 1 | 2 | 3 | 4 | 5 | 6 | | ^ pozice (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | <fc #FF0000>KWIC</fc> | 1 | 2 | 3 | 4 | 5 | 6 | |
| |
S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou), což umožňuje položka **(Node) začít od**. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rohodující. | S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou, nebo levou), což umožňuje položka **(Node) začít od**. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rozhodující. |
| |
^ konkordance | znečišťování | ovzduší | . | Moderní | kotle | na | **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>** | splňují | dnes | všechny | požadavky | z | hlediska | | ^ konkordance | znečišťování | ovzduší | . | Moderní | kotle | na | **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>** | splňují | dnes | všechny | požadavky | z | hlediska | |
Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.). | Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.). |
| |
V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace, jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc (pomocí kliknutí a tlačítka Ctrl), bude ve výsledku víc seznamů -- nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů. | V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace, jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc, bude ve výsledku víc seznamů -- nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů. |
| |
I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby **Zahrnout i kategorie bez výskytů** zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Lemma //dřevo// se např. ani jednou neobjevuje v písních (txtype [[seznamy:txtype|SON]]). Je-li tato volba zaškrtnuta, txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí. | I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby **Zahrnout i kategorie bez výskytů** zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Např. lemma //dřevo// se v SYN2010 ani jednou neobjevuje v písních (txtype [[seznamy:txtype|SON]]). Je-li tato volba zaškrtnuta, txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí. |
| |
==== Závislost dvou atributů ==== | ==== Závislost dvou atributů ==== |
[{{ :manualy:kontext:2d-fqdist.png?nolink&450|Výsledek dvoudimenzionální frekvenční distribuce}}] | [{{ :manualy:kontext:2d-fqdist.png?nolink&450|Výsledek dvoudimenzionální frekvenční distribuce}}] |
| |
Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''%%[tag="AC.*"]%%'') jsou typická pro jednotlivé žánry či typy textů. V menu **Frekvenční distribuce** zvolíme volbu **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich. | Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''%%[tag="AC.*"]%%'') jsou typická pro jednotlivé žánry či typy textů (pro SYN2015). V menu **Frekvence → Vlastní** zvolíme možnost **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich. |
| |
Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit [[kurz:konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly. | Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit [[kurz:konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly. |
[{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}] | [{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}] |
| |
Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2010|SYN2010]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''). | Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2015|SYN2015]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''). |
- Frekvenční distribuce slovních tvarů lemmatu //dřevo// bez rozlišování velikosti a s nulovým frekvenčním limitem. | - Frekvenční distribuce slovních tvarů lemmatu //dřevo// bez rozlišování velikosti a s nulovým frekvenčním limitem. |
- Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (včetně hodnot s nulovou frekvencí) | - Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (bez hodnot s nulovou frekvencí) |
| |
U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí filtrů – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání pozitivního a negativního [[manualy:kontext:filtr|filtru]]. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. | U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí [[manualy:kontext:filtr|filtrů]] či [[manualy:kontext:konkordance#vzorek|vzorků]] – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání pozitivního a negativního [[manualy:kontext:filtr|filtru]]. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. |
| |
Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k k rychlé orientaci ve výsledcích -- délka vodorovných čar odpovídá relativní frekvenci slov. | Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k rychlé orientaci ve výsledcích -- délka vodorovných čar odpovídá frekvenci slov. |
| |
Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). | Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). |
[{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] | [{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] |
| |
Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec umožňující rychlé filtrování (v některých případech je pouze znemožněna volba negativního filtru). | Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec s **p/n** umožňující rychlé filtrování (v některých případech je znemožněna volba negativního filtru). |
| |
Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma //dřevo// objevuje v korpusu [[cnk:syn2010|SYN2010]] s četností 3509 v odborné literatuře. Vzhledem k celkovému podílu odborné literatury v korpusu (27 %) to představuje 107,9 výskytů na milion slov (i.p.m.). Ačkoli je tedy absolutní frekvence lemmatu //dřevo// v beletrii i v odborné literatuře srovnatelná (3276 versus 3509), vzhledem k nestejné velikosti těchto částí je relativní frekvence v odborné literatuře téměř dvojnásobná (65,9 versus 107,9). | Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma //dřevo// objevuje v korpusu [[cnk:syn2015|SYN2015]] s četností 2763 v oborové literatuře (NFC). Vzhledem k celkovému podílu oborové literatury v korpusu (33 %) to představuje 70,15 výskytů na milion slov (i.p.m.). |
| |
Stejně jako u jednotek je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. | Stejně jako u jednotek pozičních je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. |
| |
| |