Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
manualy:kontext:frekvencni_distribuce [2017/12/15 15:42] – michalskrabal | manualy:kontext:frekvencni_distribuce [2018/08/03 15:30] (aktuální) – Redirect vaclavcvrcek |
---|
====== Menu: Frekvence ====== | ~~REDIRECT>manualy:kontext:frekvence~~ |
| |
Pod označením //Frekvence// se v menu [[manualy:kontext:index|rozhraní KonText]] nachází funkce pro vytváření **frekvenčních distribucí**. Pomocí ní je možné získat přehled [[pojmy:typ|typů]] (např. různých slov) ve výsledku hledání spolu s jejich frekvencí. Vyhledáme-li např. všechna substantiva v gen. pl., můžeme pomocí této funkce zjistit, jaké [[pojmy:word|tvary]] se v tomto pádě a čísle vyskytují a jak často. Stejně tak je ale možné frekvenční distribuci použít na zjišťování frekvencí jednotek předcházejících či následujících, počítání [[pojmy:lemma|lemmat]] v [[pojmy:konkordance|konkordanci]], nebo pro zjištění distribuce hledaného jevu napříč různými texty či jejich skupinami (podle [[pojmy:genre|genre]], [[pojmy:txtype|txtype]] apod.). | ====== Nepoužívat! Pouze redirect na menu:frekvence ====== |
| |
Frekvenční distribuce umožňuje jednak vlastní (obecné) nastavení a jednak **rychlé volby** (ty jsou přístupné v druhé úrovni menu): | |
- **Lemmata** - vyhodnotí dotaz ([[pojmy:kwic|KWIC]]) a vypíše všechna různá lemmata (atribut [[pojmy:lemma|lemma]]) spolu s jejich frekvencí((Volba je dostupná pouze u korpusů disponujících lemmatizací)) | |
- **Slovní tvary** - vyhodnotí dotaz ([[pojmy:kwic|KWIC]]) a vypíše všechny různé tvary (atribut [[pojmy:word|word]]) spolu s jejich frekvencí | |
- **Dokumenty** - vyhodnotí celou [[pojmy:konkordance|konkordanci]] a vypíše názvy textů ([[pojmy:atributy_strukturni|strukturní atribut]] ''nazev''), v nichž se hledaný jev vyskytuje, spolu s frekvencí tohoto jevu v jednotlivých textech | |
- **Typy textů** - vyhodnotí celou [[pojmy:konkordance|konkordanci]] a vypíše přehled strukturních atributů((Inventář strukturních atributů se u korpusů může lišit, podle toho se liší i výsledek vygenerovaný touto volbou)), které se vztahují k typu textu ([[pojmy:atributy_strukturni|strukturní atributy]] ''[[pojmy:txtype_group|txtype_group]]'', ''[[pojmy:txtype|txtype]]'', ''[[pojmy:medium|med]]'', ''[[pojmy:srclang|srclang]]''), spolu s jejich frekvencí (význam jednotlivých zkratek je k dispozici v [[seznamy:index#zkratky_a_kody|seznamu zkratek a kódů]]) | |
| |
Podobnou funkcionalitu, která se ovšem většinou vztahuje na celý korpus (nikoli pouze na jednu konkrétní konkordanci), poskytuje také funkce **[[manualy:kontext:novy_dotaz#seznam_slov|Nový dotaz → Seznam slov]]**. | |
===== Vlastní nastavení frekvenční distribuce ===== | |
| |
Formulář, který se zobrazí po kliknutí na volbu **Frekvenční distribuce → Vlastní**, má tři možnosti: | |
| |
- běžnou frekvenční distribuci (slouží k analýze [[pojmy:atributy_pozicni|pozičních atributů]], jako je word, lemma, tag apod., v rámci KWICu nebo v jeho okolí pomocí přidání dalších úrovní) | |
- frekvenční distribuci podle typů textu neboli [[pojmy:atributy_strukturni|strukturních atributů]] (jako je ''[[pojmy:txtype|txtype]]'', ''[[pojmy:medium|med]]'' nebo ''[[pojmy:srclang|srclang]]'') | |
- frekvenční distribuci odrážející závislost dvou atributů (pozičních i strukturních) | |
| |
[{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro běžnou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) }}] | |
| |
==== Běžná frekvenční distribuce ==== | |
| |
Běžná frekvenční distribuce umožňuje počítat frekvenční distribuci na libovolné pozici konkordance v rozmezí 6 pozic nalevo až 6 pozic napravo od [[pojmy:kwic|KWICu]]. Ve formuláři je nejprve třeba zvolit, jaký **atribut** chceme ve frekvenční distribuci počítat (např. v korpusech [[cnk:syn|řady SYN]] jsou k dispozici základní [[pojmy:atributy_pozicni|poziční atributy]] ''word'', ''lemma'', ''tag'', ''lc'', ''pos'', dále pak specifické atributy ''k'', ''g'', ''c''). | |
| |
Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují. | |
| |
Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka //pozice// ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: | |
| |
^ konkordance | místnosti | . | Byly | z | těžkého | tmavého | **<fc #FF0000>dřeva</fc>** | a | zlověstně | zaskřípaly | . | Poslepu | jsem | | |
^ pozice | 6L | 5L | 4L | 3L | 2L | 1L | <fc #FF0000>KWIC</fc> | 1R | 2R | 3R | 4R | 5R | 6R | | |
^ pozice (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | <fc #FF0000>KWIC</fc> | 1 | 2 | 3 | 4 | 5 | 6 | | |
| |
S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou), což umožňuje položka **(Node) začít od**. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rohodující. | |
| |
^ konkordance | znečišťování | ovzduší | . | Moderní | kotle | na | **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>** | splňují | dnes | všechny | požadavky | z | hlediska | | |
^ pozice (počítáno zleva) | 6L | 5L | 4L | 3L | 2L | 1L | <fc #FF0000>KWIC</fc> | <fc #FF0000>1R</fc> | <fc #FF0000>2R</fc> | 3R | 4R | 5R | 6R | 7R | 8R | | |
^ pozice (počítáno zprava) | 8L | 7L | 6L | 5L | 4L | 3L | <fc #FF0000>2L</fc> | <fc #FF0000>1L</fc> | <fc #FF0000>KWIC</fc> | 1R | 2R | 3R | 4R | 5R | 6R | | |
| |
Pokud chceme vytvořit frekvenční distribuci nikoli pouze jednotek, ale například dvojic slov ([[pojmy:bigram|bigramů]]) nebo rozsáhlejších celků, musíme přidat další úroveň frekvenční distribuce. Ve formuláři přibude další řádek se shodnými možnostmi nastavení. Jednodušší variantu představuje rychlá volba frekvenční distribuce nazvaná **Slovní tvary** - pokud ji aplikujeme na víceslovný KWIC (např. po vyhledání dvou po sobě jdoucích adverbií typu //pomalu a opatrně// [''tag=<nowiki>"</nowiki>D.*<nowiki>"</nowiki>][word=<nowiki>"</nowiki>a<nowiki>"</nowiki>][tag=<nowiki>"</nowiki>D.*<nowiki>"</nowiki>]''), ukáže nám vyhledané víceslovné výrazy seřazené podle frekvence bez složitého nastavování. | |
| |
[{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci }}] | |
| |
V případě, že jsme se specifikací spokojeni, spustíme výpočet kliknutím na tlačítko **Vytvořit frekvenční seznam**. V základním nastavení se ve výsledku zobrazí všechny položky s alespoň jednotkovým výskytem. Chceme-li výpis zúžit, můžeme nastavit **Frekvenční limit** na hodnotu, která vyhovuje konkrétní situaci. | |
| |
==== Frekvenční distribuce podle typů textů ==== | |
| |
Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.). | |
| |
V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace, jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc (pomocí kliknutí a tlačítka Ctrl), bude ve výsledku víc seznamů -- nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů. | |
| |
I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby **Zahrnout i kategorie bez výskytů** zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Lemma //dřevo// se např. ani jednou neobjevuje v písních (txtype [[seznamy:txtype|SON]]). Je-li tato volba zaškrtnuta, txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí. | |
| |
==== Závislost dvou atributů ==== | |
| |
FIXME | |
| |
===== Frekvenční seznam (výpis) ===== | |
| |
[{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}] | |
| |
Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2010|SYN2010]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''). | |
- Frekvenční distribuce slovních tvarů lemmatu //dřevo// bez rozlišování velikosti a s nulovým frekvenčním limitem. | |
- Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (včetně hodnot s nulovou frekvencí) | |
| |
U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí filtrů – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání pozitivního a negativního [[manualy:kontext:filtr|filtru]]. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. | |
| |
Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k k rychlé orientaci ve výsledcích -- délka vodorovných čar odpovídá relativní frekvenci slov. | |
| |
Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). | |
| |
[{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] | |
| |
Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec umožňující rychlé filtrování (v některých případech je pouze znemožněna volba negativního filtru). | |
| |
Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma //dřevo// objevuje v korpusu [[cnk:syn2010|SYN2010]] s četností 3509 v odborné literatuře. Vzhledem k celkovému podílu odborné literatury v korpusu (27 %) to představuje 107,9 výskytů na milion slov (i.p.m.). Ačkoli je tedy absolutní frekvence lemmatu //dřevo// v beletrii i v odborné literatuře srovnatelná (3276 versus 3509), vzhledem k nestejné velikosti těchto částí je relativní frekvence v odborné literatuře téměř dvojnásobná (65,9 versus 107,9). | |
| |
Stejně jako u jednotek je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. | |
| |
| |
| |
---- | |
| |
<WRAP center round box 48%> | |
**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:subkorpus|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvencni_distribuce|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[moznosti_zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]] | |
</WRAP> | |