Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
manualy:kontext:frekvencni_distribuce [2018/08/03 15:27]
Václav Cvrček [Frekvenční seznam (výpis)]
manualy:kontext:frekvencni_distribuce [2018/08/03 15:30] (aktuální)
Václav Cvrček Redirect
Řádek 1: Řádek 1:
-====== MenuFrekvence ======+~~REDIRECT>​manualy:kontext:​frekvence~~
  
-Pod označením //​Frekvence//​ se v menu [[manualy:​kontext:​index|rozhraní KonText]] nachází funkce pro vytváření **frekvenčních distribucí**. Pomocí ní je možné získat přehled [[pojmy:​typ|typů]] (např. různých slov) ve výsledku hledání spolu s jejich frekvencí. Vyhledáme-li např. všechna substantiva v gen. pl., můžeme pomocí této funkce zjistit, jaké [[pojmy:​word|tvary]] se v tomto pádě a čísle vyskytují a jak často. Stejně tak je ale možné frekvenční distribuci použít na zjišťování frekvencí jednotek předcházejících či následujících,​ počítání [[pojmy:​lemma|lemmat]] v [[pojmy:​konkordance|konkordanci]],​ nebo pro zjištění distribuce hledaného jevu napříč různými texty či jejich skupinami (podle [[pojmy:​genre|genre]],​ [[pojmy:​txtype|txtype]] apod.). +====== ​Nepoužívat! Pouze redirect ​na menu:​frekvence ======
- +
-Frekvenční distribuce umožňuje jednak vlastní (obecné) nastavení a jednak **rychlé volby** (ty jsou přístupné v druhé úrovni menu): +
-  - **Lemmata** - vyhodnotí dotaz ([[pojmy:​kwic|KWIC]]) a vypíše všechna různá lemmata (atribut [[pojmy:​lemma|lemma]]) spolu s jejich frekvencí((Volba je dostupná pouze u korpusů disponujících lemmatizací)) +
-  - **Slovní tvary** - vyhodnotí dotaz ([[pojmy:​kwic|KWIC]]) a vypíše všechny různé tvary (atribut [[pojmy:​word|word]]) spolu s jejich frekvencí +
-  - **Dokumenty** - vyhodnotí celou [[pojmy:​konkordance|konkordanci]] a vypíše názvy textů ([[pojmy:​atributy_strukturni|strukturní atribut]] ''​nazev''​),​ v nichž se hledaný jev vyskytuje, spolu s frekvencí tohoto jevu v jednotlivých textech +
-  - **Typy textů** - vyhodnotí celou [[pojmy:​konkordance|konkordanci]] a vypíše přehled strukturních atributů((Inventář strukturních atributů se u korpusů může lišit, podle toho se liší i výsledek vygenerovaný touto volbou)), které se vztahují k typu textu ([[pojmy:​atributy_strukturni|strukturní atributy]] ''​[[pojmy:​txtype_group|txtype_group]]'',​ ''​[[pojmy:​txtype|txtype]]'',​ ''​[[pojmy:​medium|med]]'',​ ''​[[pojmy:​srclang|srclang]]''​),​ spolu s jejich frekvencí (význam jednotlivých zkratek je k dispozici v [[seznamy:​index#​zkratky_a_kody|seznamu zkratek a kódů]]) +
- +
-Podobnou funkcionalitu,​ která se ovšem většinou vztahuje na celý korpus (nikoli pouze na jednu konkrétní konkordanci),​ poskytuje také funkce **[[manualy:​kontext:​novy_dotaz#​seznam_slov|Nový dotaz → Seznam slov]]**. +
-===== Vlastní nastavení frekvenční distribuce ​===== +
- +
-Formulář, který se zobrazí po kliknutí na volbu **Frekvenční distribuce → Vlastní**, má tři možnosti: +
- +
-  - běžnou frekvenční distribuci (slouží k analýze [[pojmy:​atributy_pozicni|pozičních atributů]],​ jako je word, lemma, tag apod., v rámci KWICu nebo v jeho okolí pomocí přidání dalších úrovní) +
-  - frekvenční distribuci podle typů textu neboli [[pojmy:​atributy_strukturni|strukturních atributů]] (jako je ''​[[pojmy:​txtype|txtype]]'',​ ''​[[pojmy:​medium|med]]''​ nebo ''​[[pojmy:​srclang|srclang]]''​) +
-  - frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) +
- +
-[{{ :​manualy:​kontext:​fqdist-pozice.png?​direct&​300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:​atributy_pozicni|poziční atributy]]) }}] +
- +
-==== Běžná frekvenční distribuce ==== +
- +
-Běžná frekvenční distribuce umožňuje počítat frekvenční distribuci ​na libovolné pozici konkordance v rozmezí 6 pozic nalevo až 6 pozic napravo od [[pojmy:​kwic|KWICu]]. Ve formuláři je nejprve třeba zvolit, jaký **atribut** chceme ve frekvenční distribuci počítat (např. v korpusech [[cnk:​syn|řady SYN]] jsou k dispozici základní [[pojmy:​atributy_pozicni|poziční atributy]] ''​word'',​ ''​lemma'',​ ''​tag'',​ ''​lc'',​ ''​pos'',​ dále pak specifické atributy ''​k'',​ ''​g'',​ ''​c''​).  +
- +
-Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:​case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. +
- +
-[{{ :​manualy:​kontext:​fqdist-reference.png?​direct&​300|Formulář pro frekvenční distribuci typů textů}}] +
- +
-Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka //pozice// ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: +
- +
-^ konkordance ​ | místnosti | . | Byly | z | těžkého | tmavého | ​ **<fc #​FF0000>​dřeva</​fc>​** ​ | a | zlověstně | zaskřípaly | . | Poslepu | jsem | +
-^ pozice ​ |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #​FF0000>​KWIC</​fc> ​ |  1R  |  2R  |  3R  |  4R  |  5R  |  6R  | +
-^ pozice (starší notace) ​ |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #​FF0000>​KWIC</​fc> ​ |  1  |  2  |  3  |  4  |  5  |  6  | +
- +
-S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat,​ kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou), což umožňuje položka **(Node) začít od**. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rohodující. +
- +
-^ konkordance ​ | znečišťování | ovzduší | . | Moderní | kotle | na |  **<fc #​FF0000>​dřevo</​fc>​** | **<fc #​FF0000>​a</​fc>​** | **<fc #​FF0000>​uhlí</​fc>​** ​ | splňují | dnes | všechny | požadavky | z | hlediska |  +
-^ pozice (počítáno zleva) |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #​FF0000>​KWIC</​fc> ​ |  <fc #​FF0000>​1R</​fc> ​ |  <fc #​FF0000>​2R</​fc> ​ |  3R  |  4R  |  5R  |  6R  | 7R | 8R | +
-^ pozice (počítáno zprava) |  8L  |  7L  |  6L  |  5L  |  4L  |  3L  |  <fc #​FF0000>​2L</​fc> ​ |  <fc #​FF0000>​1L</​fc> ​ |  <fc #​FF0000>​KWIC</​fc> ​ |  1R  |  2R  |  3R  |  4R  | 5R | 6R | +
- +
-Pokud chceme vytvořit frekvenční distribuci nikoli pouze jednotek, ale například dvojic slov ([[pojmy:​bigram|bigramů]]) nebo rozsáhlejších celků, musíme přidat další úroveň frekvenční distribuce. Ve formuláři přibude další řádek se shodnými možnostmi nastavení. Jednodušší variantu představuje rychlá volba frekvenční distribuce nazvaná **Slovní tvary** - pokud ji aplikujeme na víceslovný KWIC (např. po vyhledání dvou po sobě jdoucích adverbií typu //pomalu a opatrně// [''​tag=<​nowiki>"</​nowiki>​D.*<​nowiki>"</​nowiki>​][word=<​nowiki>"</​nowiki>​a<​nowiki>"</​nowiki>​][tag=<​nowiki>"</​nowiki>​D.*<​nowiki>"</​nowiki>​]''​),​ ukáže nám vyhledané víceslovné výrazy seřazené podle frekvence bez složitého nastavování. +
- +
-V případě, že jsme se specifikací spokojeni, spustíme výpočet kliknutím na tlačítko **Vytvořit frekvenční seznam**. V základním nastavení se ve výsledku zobrazí všechny položky s alespoň jednotkovým výskytem. Chceme-li výpis zúžit, můžeme nastavit **Frekvenční limit** na hodnotu, která vyhovuje konkrétní situaci. +
- +
-==== Frekvenční distribuce podle typů textů ==== +
- +
-Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:​txtype|typ textu]], [[pojmy:​srclang|zdrojový jazyk]], [[pojmy:​medium|médium]] apod.). +
- +
-V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace,​ jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc (pomocí kliknutí a tlačítka Ctrl), bude ve výsledku víc seznamů -- nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů. +
- +
-I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby **Zahrnout i kategorie bez výskytů** zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Lemma //dřevo// se např. ani jednou neobjevuje v písních (txtype [[seznamy:​txtype|SON]]). Je-li tato volba zaškrtnuta,​ txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí. +
- +
-==== Závislost dvou atributů ==== +
- +
-[{{ :​manualy:​kontext:​2d-fqdist.png?​nolink&​450|Výsledek dvoudimenzionální frekvenční distribuce}}]  +
- +
-Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních,​ tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''​%%[tag="​AC.*"​]%%''​) jsou typická pro jednotlivé žánry či typy textů. V menu **Frekvenční distribuce** zvolíme volbu **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich. +
- +
-Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:​txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice),​ řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:​ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/​relativní frekvence v řádku či sloupci), nastavit [[kurz:​konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly. +
- +
-===== Frekvenční seznam (výpis) ​===== +
- +
-[{{ :​manualy:​kontext:​fqdist-word-drevo.png?​direct&​300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}] +
- +
-Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:​syn2010|SYN2010]] a dotazu na [[pojmy:​lemma|lemma]] //dřevo// (''​[lemma=%%"​%%dřevo%%"​%%]''​).  +
-  - Frekvenční distribuce slovních tvarů lemmatu //dřevo// bez rozlišování velikosti a s nulovým frekvenčním limitem. +
-  - Frekvenční distribuce hodnot strukturních atributů ''​txtype''​ a ''​txtype_group''​ lemmatu //dřevo// (včetně hodnot s nulovou frekvencí) +
- +
-U každého slovního tvaru (atribut [[pojmy:​word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí filtrů – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání pozitivního a negativního [[manualy:​kontext:​filtr|filtru]]. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. +
- +
-Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k k rychlé orientaci ve výsledcích -- délka vodorovných čar odpovídá relativní frekvenci slov. +
- +
-Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). +
- +
-[{{ :​manualy:​kontext:​fqdist-txtype-drevo.png?​direct&​300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] +
- +
-Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec umožňující rychlé filtrování (v některých případech je pouze znemožněna volba negativního filtru).  +
- +
-Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka [[pojmy:​ipm|i.p.m.]] Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma //dřevo// objevuje v korpusu [[cnk:​syn2010|SYN2010]] s četností 3509 v odborné literatuře. Vzhledem k celkovému podílu odborné literatury v korpusu (27 %) to představuje 107,9 výskytů na milion slov (i.p.m.). Ačkoli je tedy absolutní frekvence lemmatu //dřevo// v beletrii i v odborné literatuře srovnatelná (3276 versus 3509), vzhledem k nestejné velikosti těchto částí je relativní frekvence v odborné literatuře téměř dvojnásobná (65,9 versus 107,9).  +
- +
-Stejně jako u jednotek je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. +
- +
- +
- +
----- +
- +
-<WRAP center round box 48%> +
-**[[manualy:​kontext:​index|Menu]]**:​ [[manualy:​kontext:​novy_dotaz|Dotaz]] • [[manualy:​kontext:​korpusy|Korpusy]] • [[manualy:​kontext:​ulozit|Uložit]] • [[manualy:​kontext:​konkordance|Konkordance]] • [[manualy:​kontext:​filtr|Filtr]] • [[manualy:​kontext:​frekvencni_distribuce|Frekvence]] • [[[[manualy:​kontext:​kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:​kontext:​napoveda|Nápověda]] +
-</​WRAP>​+