Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- manualy:kontext:frekvencni_distribuce [2018/08/03 15:27] – [Frekvenční seznam (výpis)] Václav Cvrček
+++ manualy:kontext:frekvencni_distribuce [2018/08/03 15:30] (aktuální) – Redirect Václav Cvrček
@@ Řádek 1: / Řádek 1: @@
-====== Menu: Frekvence ======
+~~REDIRECT>manualy:kontext:frekvence~~
-Pod označením //Frekvence// se v menu [[manualy:kontext:index|rozhraní KonText]] nachází funkce pro vytváření **frekvenčních distribucí**. Pomocí ní je možné získat přehled [[pojmy:typ|typů]] (např. různých slov) ve výsledku hledání spolu s jejich frekvencí. Vyhledáme-li např. všechna substantiva v gen. pl., můžeme pomocí této funkce zjistit, jaké [[pojmy:word|tvary]] se v tomto pádě a čísle vyskytují a jak často. Stejně tak je ale možné frekvenční distribuci použít na zjišťování frekvencí jednotek předcházejících či následujících, počítání [[pojmy:lemma|lemmat]] v [[pojmy:konkordance|konkordanci]], nebo pro zjištění distribuce hledaného jevu napříč různými texty či jejich skupinami (podle [[pojmy:genre|genre]], [[pojmy:txtype|txtype]] apod.).
+====== Nepoužívat! Pouze redirect na menu:frekvence ======
-Frekvenční distribuce umožňuje jednak vlastní (obecné) nastavení a jednak **rychlé volby** (ty jsou přístupné v druhé úrovni menu):
-  - **Lemmata** - vyhodnotí dotaz ([[pojmy:kwic|KWIC]]) a vypíše všechna různá lemmata (atribut [[pojmy:lemma|lemma]]) spolu s jejich frekvencí((Volba je dostupná pouze u korpusů disponujících lemmatizací))
-  - **Slovní tvary** - vyhodnotí dotaz ([[pojmy:kwic|KWIC]]) a vypíše všechny různé tvary (atribut [[pojmy:word|word]]) spolu s jejich frekvencí
-  - **Dokumenty** - vyhodnotí celou [[pojmy:konkordance|konkordanci]] a vypíše názvy textů ([[pojmy:atributy_strukturni|strukturní atribut]] ''nazev''), v nichž se hledaný jev vyskytuje, spolu s frekvencí tohoto jevu v jednotlivých textech
-  - **Typy textů** - vyhodnotí celou [[pojmy:konkordance|konkordanci]] a vypíše přehled strukturních atributů((Inventář strukturních atributů se u korpusů může lišit, podle toho se liší i výsledek vygenerovaný touto volbou)), které se vztahují k typu textu ([[pojmy:atributy_strukturni|strukturní atributy]] ''[[pojmy:txtype_group|txtype_group]]'', ''[[pojmy:txtype|txtype]]'', ''[[pojmy:medium|med]]'', ''[[pojmy:srclang|srclang]]''), spolu s jejich frekvencí (význam jednotlivých zkratek je k dispozici v [[seznamy:index#zkratky_a_kody|seznamu zkratek a kódů]])
-Podobnou funkcionalitu, která se ovšem většinou vztahuje na celý korpus (nikoli pouze na jednu konkrétní konkordanci), poskytuje také funkce **[[manualy:kontext:novy_dotaz#seznam_slov|Nový dotaz → Seznam slov]]**.
-===== Vlastní nastavení frekvenční distribuce =====
-Formulář, který se zobrazí po kliknutí na volbu **Frekvenční distribuce → Vlastní**, má tři možnosti:
-  - běžnou frekvenční distribuci (slouží k analýze [[pojmy:atributy_pozicni|pozičních atributů]], jako je word, lemma, tag apod., v rámci KWICu nebo v jeho okolí pomocí přidání dalších úrovní)
-  - frekvenční distribuci podle typů textu neboli [[pojmy:atributy_strukturni|strukturních atributů]] (jako je ''[[pojmy:txtype|txtype]]'', ''[[pojmy:medium|med]]'' nebo ''[[pojmy:srclang|srclang]]'')
-  - frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních)
-[{{ :manualy:kontext:fqdist-pozice.png?direct&300|Formulář pro víceúrovňovou frekvenční distribuci ([[pojmy:atributy_pozicni|poziční atributy]]) }}]
-==== Běžná frekvenční distribuce ====
-Běžná frekvenční distribuce umožňuje počítat frekvenční distribuci na libovolné pozici konkordance v rozmezí 6 pozic nalevo až 6 pozic napravo od [[pojmy:kwic|KWICu]]. Ve formuláři je nejprve třeba zvolit, jaký **atribut** chceme ve frekvenční distribuci počítat (např. v korpusech [[cnk:syn|řady SYN]] jsou k dispozici základní [[pojmy:atributy_pozicni|poziční atributy]] ''word'', ''lemma'', ''tag'', ''lc'', ''pos'', dále pak specifické atributy ''k'', ''g'', ''c'').
-Dále je třeba zvolit, zda se frekvenční distribuce má počítat s ohledem na velikost písmen. Při volbě [[pojmy:case-insensitive|case-insensitive]] jsou všechny položky převedeny na malá písmena bez ohledu na to, s jakou velikostí písmen se reálně v korpusu objevují.
-[{{ :manualy:kontext:fqdist-reference.png?direct&300|Formulář pro frekvenční distribuci typů textů}}]
-Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka //pozice// ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka:
-^ konkordance  | místnosti | . | Byly | z | těžkého | tmavého	|  **<fc #FF0000>dřeva</fc>**  | a | zlověstně | zaskřípaly | . | Poslepu | jsem |
-^ pozice  |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  |  5R  |  6R  |
-^ pozice (starší notace)  |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  |  5  |  6  |
-S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou), což umožňuje položka **(Node) začít od**. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rohodující.
-^ konkordance  | znečišťování | ovzduší | . | Moderní | kotle | na |  **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>**  | splňují | dnes | všechny | požadavky | z | hlediska |
-^ pozice (počítáno zleva) |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1R</fc>  |  <fc #FF0000>2R</fc>  |  3R  |  4R  |  5R  |  6R  | 7R | 8R |
-^ pozice (počítáno zprava) |  8L  |  7L  |  6L  |  5L  |  4L  |  3L  |  <fc #FF0000>2L</fc>  |  <fc #FF0000>1L</fc>  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  | 5R | 6R |
-Pokud chceme vytvořit frekvenční distribuci nikoli pouze jednotek, ale například dvojic slov ([[pojmy:bigram|bigramů]]) nebo rozsáhlejších celků, musíme přidat další úroveň frekvenční distribuce. Ve formuláři přibude další řádek se shodnými možnostmi nastavení. Jednodušší variantu představuje rychlá volba frekvenční distribuce nazvaná **Slovní tvary** - pokud ji aplikujeme na víceslovný KWIC (např. po vyhledání dvou po sobě jdoucích adverbií typu //pomalu a opatrně// [''tag=<nowiki>"</nowiki>D.*<nowiki>"</nowiki>][word=<nowiki>"</nowiki>a<nowiki>"</nowiki>][tag=<nowiki>"</nowiki>D.*<nowiki>"</nowiki>]''), ukáže nám vyhledané víceslovné výrazy seřazené podle frekvence bez složitého nastavování.
-V případě, že jsme se specifikací spokojeni, spustíme výpočet kliknutím na tlačítko **Vytvořit frekvenční seznam**. V základním nastavení se ve výsledku zobrazí všechny položky s alespoň jednotkovým výskytem. Chceme-li výpis zúžit, můžeme nastavit **Frekvenční limit** na hodnotu, která vyhovuje konkrétní situaci.
-==== Frekvenční distribuce podle typů textů ====
-Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.).
-V zobrazeném seznamu pomocí myši zvýrazníme ty metainformace, jejichž hodnoty chceme ve frekvenční distribuci vyhodnotit. Vybereme-li hodnot víc (pomocí kliknutí a tlačítka Ctrl), bude ve výsledku víc seznamů -- nejde tudíž jako v předchozím případě o víceúrovňovou analýzu (kdy by se kombinovaly údaje různých úrovní), ale o postupné spuštění několika frekvenčních distribucí a zobrazení několika frekvenčních seznamů.
-I zde můžeme nastavit frekvenční limit, chceme-li omezit počet výsledků v seznamu. Zároveň je ale možné pomocí volby **Zahrnout i kategorie bez výskytů** zobrazit v seznamu ty hodnoty atributů, které se v konkordanci vůbec neobjevily. Lemma //dřevo// se např. ani jednou neobjevuje v písních (txtype [[seznamy:txtype|SON]]). Je-li tato volba zaškrtnuta, txtype SON se ve frekvenční distribuci přesto objeví, a to s nulovou frekvencí.
-==== Závislost dvou atributů ====
-[{{ :manualy:kontext:2d-fqdist.png?nolink&450|Výsledek dvoudimenzionální frekvenční distribuce}}]
-Poslední typ frekvenční distribuce odráží vzájemný vztah dvou atributů, a to jak pozičních, tak strukturních. Takto můžeme zjistit například to, jaká jmenná adjektiva (''%%[tag="AC.*"]%%'') jsou typická pro jednotlivé žánry či typy textů. V menu **Frekvenční distribuce** zvolíme volbu **Závislost dvou atributů** a tyto dva atributy vybereme z nabídky, v našem případě jako první atribut (v tabulce s výsledky se bude zobrazovat v řádcích) zvolíme **lemma**, jako druhý (zobrazovaný ve sloupcích) **doc.txtype_group** (pod Typy textů). Rovněž můžeme nastavit minimální hodnoty, ať už ve [[pojmy:frekvence|frekvenci absolutní či relativní]] anebo v percentilech jedné z nich.
-Po potvrzení volby **Vytvořit frekvenční seznam** se objeví tabulka s počty výskytů jednotlivých adjektiv ve třech [[pojmy:txtype_group|makrotřídách textů]] (tedy v beletrii, oborové literatuře a publicistice), řazenými defaultně podle frekvence sestupně. Zobrazení výsledků je možno podle potřeb dále měnit: střídat absolutní frekvenci s relativní ([[pojmy:ipm|i.p.m.]]) či přepnout orientaci řádků a sloupců, případně namísto tabulky zobrazit seznam dvojic daných atributů. V rámci pokročilých voleb lze mj. třídit řádky podle trojího kritéria (hodnota atributu, součet absolutní/relativní frekvence v řádku či sloupci), nastavit [[kurz:konfidencni_intervaly|konfidenční interval]] či mapování barev (bližší informace -- viz ikonka otazníku vedle volby **Mapování barev**). Při zobrazení relativních frekvencí (i.p.m.) lze pomocí ikony grafu zobrazit distribuci jevu v řádku nebo ve sloupci pomocí grafu s naznačenými konfidenčními intervaly.
-===== Frekvenční seznam (výpis) =====
-[{{ :manualy:kontext:fqdist-word-drevo.png?direct&300|Frekvenční distribuce slovních tvarů lemmatu //dřevo// }}]
-Následující příklady využití frekvenční distribuce se vztahují ke korpusu [[cnk:syn2010|SYN2010]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]'').
-  - Frekvenční distribuce slovních tvarů lemmatu //dřevo// bez rozlišování velikosti a s nulovým frekvenčním limitem.
-  - Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (včetně hodnot s nulovou frekvencí)
-U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává absolutní četnost dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí filtrů – bude i frekvenční seznam tyto změny reflektovat). V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání pozitivního a negativního [[manualy:kontext:filtr|filtru]]. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru.
-Poslední sloupec frekvenčního výpisu představuje horizontální sloupcový graf. Ten slouží k k rychlé orientaci ve výsledcích -- délka vodorovných čar odpovídá relativní frekvenci slov.
-Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu).
-[{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}]
-Výpis frekvenční distribuce podle **strukturních atributů** má trochu odlišnou strukturu. Stejný zůstává sloupec s absolutní frekvencí a sloupec umožňující rychlé filtrování (v některých případech je pouze znemožněna volba negativního filtru).
-Nově se zde u každé položky (hodnoty strukturního atributu, který jsme zvolili) objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje relativní četnost jevů zobrazených v konkordanci vzhledem k celkové velikosti části korpusu s danou hodnotou strukturního atributu. V našem případě se lemma //dřevo// objevuje v korpusu [[cnk:syn2010|SYN2010]] s četností 3509 v odborné literatuře. Vzhledem k celkovému podílu odborné literatury v korpusu (27 %) to představuje 107,9 výskytů na milion slov (i.p.m.). Ačkoli je tedy absolutní frekvence lemmatu //dřevo// v beletrii i v odborné literatuře srovnatelná (3276 versus 3509), vzhledem k nestejné velikosti těchto částí je relativní frekvence v odborné literatuře téměř dvojnásobná (65,9 versus 107,9).
-Stejně jako u jednotek je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu.
-----
-<WRAP center round box 48%>
-**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:korpusy|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvencni_distribuce|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]]
-</WRAP>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence