AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Menu: Frekvence

Pod označením Frekvence se v menu rozhraní KonText nachází funkce pro vytváření frekvenčních distribucí. Pomocí ní je možné získat přehled typů (např. různých slov) ve výsledku hledání spolu s jejich frekvencí. Vyhledáme-li např. všechna substantiva v gen. pl., můžeme pomocí této funkce zjistit, jaké tvary se v tomto pádě a čísle vyskytují a jak často. Stejně tak je ale možné frekvenční distribuci použít na zjišťování frekvencí jednotek předcházejících či následujících, počítání lemmat v konkordanci, nebo pro zjištění distribuce hledaného jevu napříč různými texty či jejich skupinami (podle genre, txtype apod.).

Frekvenční distribuce umožňuje jednak vlastní (obecné) nastavení a jednak rychlé volby (ty jsou přístupné v druhé úrovni menu):

  1. Lemmata – vyhodnotí dotaz (KWIC) a vypíše všechna různá lemmata (atribut lemma) spolu s jejich frekvencí1)
  2. Slovní tvary – vyhodnotí dotaz (KWIC) a vypíše všechny různé tvary (atribut word) spolu s jejich frekvencí
  3. Dokumenty – vyhodnotí celou konkordanci a vypíše identifikátory textů (konkrétní strukturní atribut se může lišit v závislosti na vybraném korpusu), v nichž se hledaný jev vyskytuje, spolu s frekvencí tohoto jevu v jednotlivých textech
  4. Typy textů – vyhodnotí celou konkordanci a vypíše přehled strukturních atributů2), které se vztahují k typu textu (strukturní atributy txtype, genre apod.), spolu s jejich frekvencí (význam jednotlivých zkratek je k dispozici v seznamu zkratek a kódů)

Podobnou funkcionalitu, která se ovšem většinou vztahuje na celý korpus (nikoli pouze na jednu konkrétní konkordanci), poskytuje také funkce Nový dotaz → Seznam slov.

Vlastní nastavení frekvenční distribuce

Formulář, který se zobrazí po kliknutí na volbu Frekvence → Vlastní, má tři možnosti:

  1. běžnou frekvenční distribuci (slouží k analýze pozičních atributů, jako je word, lemma, tag apod., v rámci KWIC nebo v jeho okolí pomocí přidání dalších úrovní)
  2. frekvenční distribuci podle typů textu neboli strukturních atributů (jako je txtype, genre nebo srclang)
  3. frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních)
Formulář pro víceúrovňovou frekvenční distribuci (poziční atributy) FIXME

Běžná frekvenční distribuce

Běžná frekvenční distribuce umožňuje počítat frekvenční distribuci na libovolné pozici konkordance v rozmezí 6 pozic nalevo až 6 pozic napravo od KWICu. Ve formuláři je nejprve třeba zvolit, jaký atribut chceme ve frekvenční distribuci počítat (např. v korpusech řady SYN jsou k dispozici základní poziční atributy word, lemma, tag, lc, pos).

Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě case-insensitive jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují.

Formulář pro frekvenční distribuci typů textů FIXME

Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka Pozice ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L–1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R–6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka:

konkordance místnosti . Byly z těžkého tmavého dřeva a zlověstně zaskřípaly . Poslepu jsem
pozice 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R
pozice (starší notace) -6 -5 -4 -3 -2 -1 KWIC 1 2 3 4 5 6

S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze dřevo a uhlí). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou, nebo levou), což umožňuje položka (Node) začít od. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rozhodující.

konkordance znečišťování ovzduší . Moderní kotle na dřevo a uhlí splňují dnes všechny požadavky z hlediska
pozice (počítáno zleva) 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R 7R 8R
pozice (počítáno zprava) 8L 7L 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R

Pokud chceme vytvořit frekvenční distribuci nikoli pouze jednotek, ale například dvojic slov (bigramů) nebo rozsáhlejších celků, musíme přidat další úroveň frekvenční distribuce. Ve formuláři přibude další řádek se shodnými možnostmi nastavení. Jednodušší variantu představuje rychlá volba frekvenční distribuce nazvaná Slovní tvary - pokud ji aplikujeme na víceslovný KWIC (např. po vyhledání dvou po sobě jdoucích adverbií typu pomalu a opatrně [tag="D.*"][word="a"][tag="D.*"]), ukáže nám vyhledané víceslovné výrazy seřazené podle frekvence bez složitého nastavování.

V případě, že jsme se specifikací spokojeni, spustíme výpočet kliknutím na tlačítko Vytvořit frekvenční seznam. V základním nastavení se ve výsledku zobrazí všechny položky s alespoň jednotkovým výskytem. Chceme-li výpis zúžit, můžeme nastavit Frekvenční limit na hodnotu, která vyhovuje konkrétní situaci.

Frekvenční distribuce podle typů textů

Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá typ textu, zdrojový jazyk, médium apod.).

V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace, jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc, bude ve výsledku víc seznamů – nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů.

I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby Zahrnout i kategorie bez výskytů zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Např. lemma dřevo se v SYN2010 ani jednou neobjevuje v písních (txtype SON). Je-li tato volba zaškrtnuta, txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí.

Závislost dvou atributů

Výsledek dvoudimenzionální frekvenční distribuce

Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva ([tag="AC.*"]) jsou typická pro jednotlivé žánry či typy textů (pro SYN2015). V menu Frekvence → Vlastní zvolíme možnost Závislost dvou atributů a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme lemma, jako druhý (zobrazovaný ve sloupcích) doc.txtype_group (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve frekvenci absolutní či relativní anebo v percentilech jedné z nich.

Po potvrzení volby Vytvořit frekvenční seznam se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech makrotřídách textů (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní (i.p.m.) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit konfidenční interval či mapování barev (bližší informace – viz ikonka otazníku vedle volby Mapování barev). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly.

Frekvenční seznam (výpis)

Frekvenční distribuce slovních tvarů lemmatu dřevo

Následující příklady využití frekvenční distribuce se vztahují ke korpusu SYN2010 a dotazu na lemma dřevo ([lemma="dřevo"]).

  1. Frekvenční distribuce slovních tvarů lemmatu dřevo bez rozlišování velikosti a s nulovým frekvenčním limitem.
  2. Frekvenční distribuce hodnot strukturních atributů txtype a txtype_group lemmatu dřevo (včetně hodnot s nulovou frekvencí)

U každého slovního tvaru (atribut word) vypsaného ve frekvenční distribuci lemmatu dřevo se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí filtrů – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy p/n, které slouží pro rychlé vyvolání pozitivního a negativního filtru. Kliknutím na p v řádku reprezentujícím frekvenci tvaru dřevem vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci n budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru.

Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k k rychlé orientaci ve výsledcích – délka vodorovných čar odpovídá relativní frekvenci slov.

Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu).

Frekvenční distribuce textových typů a jejich skupin lemmatu dřevo

Výpis frekvenční distribuce podle strukturních atributů má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec umožňující rychlé filtrování (v některých případech je pouze znemožněna volba negativního filtru).

Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka i.p.m. Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma dřevo objevuje v korpusu SYN2010 s četností 3509 v odborné literatuře. Vzhledem k celkovému podílu odborné literatury v korpusu (27 %) to představuje 107,9 výskytů na milion slov (i.p.m.). Ačkoli je tedy absolutní frekvence lemmatu dřevo v beletrii i v odborné literatuře srovnatelná (3276 versus 3509), vzhledem k nestejné velikosti těchto částí je relativní frekvence v odborné literatuře téměř dvojnásobná (65,9 versus 107,9).

Stejně jako u jednotek je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu.


1)
Volba je dostupná pouze u korpusů disponujících lemmatizací
2)
Inventář strukturních atributů se u korpusů může lišit, podle toho se liší i výsledek vygenerovaný touto volbou