Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
manualy:kontext:frekvence [2022/05/19 11:33] – [Tabulkové zobrazení] Jan Křivan | manualy:kontext:frekvence [2023/04/05 17:27] (aktuální) – stará verze byla obnovena (2023/04/02 20:35) Michal Křen |
---|
==== Tabulkové zobrazení ==== | ==== Tabulkové zobrazení ==== |
| |
[{{ :manualy:kontext:fqdist-word-drevo_tab.png?direct&400|Frekvenční distribuce slovních tvarů lemmatu //dřevo// (včetně zobrazení konfidenčních intervalů) }}] | [{{ :manualy:kontext:fqdist-word-drevo_tab.png?direct&400|Frekvenční distribuce slovních tvarů lemmatu //dřevo// (včetně zobrazení konfidenčních intervalů)}}] |
| |
Výchozím způsobem zobrazení je tabulka s uvedením absolutních a relativních frekvencí pro jednotlivé položky (včetně možnosti zobrazení konfidenčních intervalů). | Výchozím způsobem zobrazení je tabulka s uvedením absolutních a relativních frekvencí pro jednotlivé položky (včetně možnosti zobrazení konfidenčních intervalů). |
U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává **absolutní četnost** dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí [[manualy:kontext:filtr|filtrů]] či [[manualy:kontext:konkordance#vzorek|vzorků]] – bude i frekvenční seznam tyto změny reflektovat). V seznamu se zobrazí všechny položky s alespoň jednotkovým výskytem. Chceme-li výpis zúžit, můžeme nastavit **Minimální frekvenci** na hodnotu, která vyhovuje konkrétní situaci. | U každého slovního tvaru (atribut [[pojmy:word|word]]) vypsaného ve frekvenční distribuci lemmatu //dřevo// se objevuje několik informací. Základní je informace ve sloupci frekvence, která udává **absolutní četnost** dané jednotky ve vyhledané konkordanci (byla-li konkordance před zadáním frekvenční distribuce nějak měněna – např. pomocí [[manualy:kontext:filtr|filtrů]] či [[manualy:kontext:konkordance#vzorek|vzorků]] – bude i frekvenční seznam tyto změny reflektovat). V seznamu se zobrazí všechny položky s alespoň jednotkovým výskytem. Chceme-li výpis zúžit, můžeme nastavit **Minimální frekvenci** na hodnotu, která vyhovuje konkrétní situaci. |
| |
Vedle sloupce s absolutní frekvencí se objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje **relativní četnost** zkoumaných jevů vzhledem k celkové velikosti korpusu. V našem případě se tvar //dřevem// objevuje v korpusu [[cnk:syn2020|SYN2020]] s absolutní četností 5 712, což představuje 46,89 výskytů na milion slov (i.p.m.). | Vedle sloupce s absolutní frekvencí se objevuje i položka [[pojmy:ipm|i.p.m.]] Vyjadřuje **relativní četnost** zkoumaných jevů vzhledem k celkové velikosti korpusu. V našem případě se tvar //dřeva// objevuje v korpusu [[cnk:syn2020|SYN2020]] s absolutní četností 5 712, což představuje 46,89 výskytů na milion slov (i.p.m.). |
| |
Pro hodnoty absolutní i relativní frekvence lze pomocí další volby zobrazit i hodnoty **[[pojmy:konfidencni_intervaly|konfidenčních intervalů]]**, tj. rozsahy, v nichž by se dané frekvence (s pravděpodobností na určené **konfidenční hladině**) vyskytovaly v jiných, podobně sestavených korpusech srovnatelné velikosti. Konfidenční hladina je nastavena na 95 % a je možné ji uživatelsky změnit pomocí volby na 99 % nebo 90 %. | Pro hodnoty absolutní i relativní frekvence lze pomocí další volby zobrazit i hodnoty **[[pojmy:konfidencni_intervaly|konfidenčních intervalů]]**, tj. rozsahy, v nichž by se dané frekvence (s pravděpodobností na určené **konfidenční hladině**) vyskytovaly v jiných, podobně sestavených korpusech srovnatelné velikosti. Konfidenční hladina je nastavena na 95 % a je možné ji uživatelsky změnit pomocí volby na 99 % nebo 90 %. |
| |
V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání **pozitivního a negativního [[manualy:kontext:filtr|filtru]]**. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřevem// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. | V seznamu nalevo od slovního tvaru jsou odkazy **p/n**, které slouží pro rychlé vyvolání **pozitivního a negativního [[manualy:kontext:filtr|filtru]]**. Kliknutím na **p** v řádku reprezentujícím frekvenci tvaru //dřeva// vyfiltrujeme ze stávající konkordance pouze tento tvar, analogicky po aktivaci **n** budou z aktuální konkordance vyloučeny všechny výskyty daného tvaru. |
| |
Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). | Při kliknutí na nadpis sloupce se tabulka automaticky podle zvoleného sloupce přetřídí. Je tak možné získat i seznam setříděný abecedně (vedle běžného frekvenčně seřazeného výpisu). |
| |
| Pomocí funkce **Sdílet tabulku** (odkaz je umístěn v řádku nad tabulkou) se vygeneruje trvalý odkaz na tabulku, který lze přímo z okna formuláře poslat na zadanou adresu e-mailem nebo později uvést v článku, studii apod. |
| |
==== Zobrazení v grafech ==== | ==== Zobrazení v grafech ==== |
Grafické zobrazení umožňuje vizualizovat informace představené v předchozím oddílu (absolutní a relativní frekvence položek s jejich konfidenčními intervaly) do podoby dvou typů grafů: horizontálního **sloupcového grafu** a grafu typu "**word cloud**". | Grafické zobrazení umožňuje vizualizovat informace představené v předchozím oddílu (absolutní a relativní frekvence položek s jejich konfidenčními intervaly) do podoby dvou typů grafů: horizontálního **sloupcového grafu** a grafu typu "**word cloud**". |
| |
[{{:manualy:kontext:fqdist-word-drevo.png?direct&350|Typ grafu: sloupcový graf }}] | [{{:manualy:kontext:fqdist-word-drevo.png?direct&350|Typ grafu: sloupcový graf }}] |
\\ | \\ |
Ve výchozím nastavení se zobrazuje sloupcový graf s hodnotami relativních četností včetně konfidenčních intervalů na hladině 95 %. | Ve výchozím nastavení se zobrazuje sloupcový graf s hodnotami relativních četností včetně konfidenčních intervalů na hladině 95 %. |
===== Vlastní nastavení frekvenční distribuce ===== | ===== Vlastní nastavení frekvenční distribuce ===== |
| |
Formulář, který se zobrazí po kliknutí na volbu **Frekvence → Vlastní** (resp. po klávesové zkratce ''Shift'' + ''F'' na obrazovce s konkordancí), má tři možnosti: | Formulář, který se zobrazí po kliknutí na volbu **Frekvence → Vlastní** (resp. po klávesové zkratce ''Shift'' + ''F'' na obrazovce s konkordancí), má čtyři možnosti: |
| |
- běžnou frekvenční distribuci (slouží k analýze [[pojmy:atributy_pozicni|pozičních atributů]], jako je [[pojmy:word|word]], [[pojmy:lemma|lemma]], [[pojmy:lemma#sublemma|sublemma]], [[pojmy:tag|tag]], [[pojmy:verbtag|verbtag]] apod., v rámci KWIC nebo v jeho okolí pomocí přidání dalších úrovní) | - běžnou frekvenční distribuci (slouží k analýze [[pojmy:atributy_pozicni|pozičních atributů]], jako je [[pojmy:word|word]], [[pojmy:lemma|lemma]], [[pojmy:lemma#sublemma|sublemma]], [[pojmy:tag|tag]], [[pojmy:verbtag|verbtag]] apod., v rámci KWIC nebo v jeho okolí pomocí přidání dalších úrovní) |
- frekvenční distribuci podle typů textu neboli [[pojmy:atributy_strukturni|strukturních atributů]] (jako je ''[[pojmy:txtype|txtype]]'', ''[[pojmy:genre|genre]]'' nebo ''[[pojmy:srclang|srclang]]'') | - frekvenční distribuci podle typů textu neboli [[pojmy:atributy_strukturni|strukturních atributů]] (jako je ''[[pojmy:txtype|txtype]]'', ''[[pojmy:genre|genre]]'' nebo ''[[pojmy:srclang|srclang]]'') |
| - disperzi znázorňující rozložení hledané konkordance napříč celým korpusem |
- frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) | - frekvenční distribuci odrážející vzájemný vztah dvou atributů (pozičních i strukturních) |
| |
Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka **Pozice** ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: | Při vlastním nastavení frekvenční distribuce se nemusíme omezovat pouze na KWIC (jako je tomu v případě rychlých voleb). Může být počítána z kterékoli kontextové pozice v pravém nebo levém okolí od hledaného slova. Položka **Pozice** ve formuláři umožňuje vybrat jak pozice v levém (předcházejícím) kontextu (6L--1L), samotný KWIC, tak pozice v pravém (následujícím) kontextu (1R--6R). Číslování pozic (podle současné i starší notace) shrnuje následující tabulka: |
| |
^ konkordance | místnosti | . | Byly | z | těžkého | tmavého | **<fc #FF0000>dřeva</fc>** | a | zlověstně | zaskřípaly | . | Poslepu | jsem | | ^ konkordance | místnosti | . | Byly | z | těžkého | tmavého | **<fc #FF0000>dřeva</fc>** | a | zlověstně | zaskřípaly | . | Poslepu | jsem | |
^ pozice | 6L | 5L | 4L | 3L | 2L | 1L | <fc #FF0000>KWIC</fc> | 1R | 2R | 3R | 4R | 5R | 6R | | ^ pozice | 6L | 5L | 4L | 3L | 2L | 1L | <fc #FF0000>KWIC</fc> | 1R | 2R | 3R | 4R | 5R | 6R | |
^ pozice (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | <fc #FF0000>KWIC</fc> | 1 | 2 | 3 | 4 | 5 | 6 | | ^ pozice (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | <fc #FF0000>KWIC</fc> | 1 | 2 | 3 | 4 | 5 | 6 | |
S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou, nebo levou), což umožňuje položka **(Node) začít od**. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rozhodující. | S určováním pozice toho, co má být předmětem výpočtu frekvenční distribuce, může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou, nebo levou), což umožňuje položka **(Node) začít od**. Tabulka shrnuje, jak se změní označení kontextových pozic podle toho, který z konců víceslovného KWICu určíme za rozhodující. |
| |
^ konkordance | znečišťování | ovzduší | . | Moderní | kotle | na | **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>** | splňují | dnes | všechny | požadavky | z | hlediska | | ^ konkordance | znečišťování | ovzduší | . | Moderní | kotle | na | **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>** | splňují | dnes | všechny | požadavky | z | hlediska | |
^ pozice (počítáno zleva) | 6L | 5L | 4L | 3L | 2L | 1L | <fc #FF0000>KWIC</fc> | <fc #FF0000>1R</fc> | <fc #FF0000>2R</fc> | 3R | 4R | 5R | 6R | 7R | 8R | | ^ pozice (počítáno zleva) | 6L | 5L | 4L | 3L | 2L | 1L | <fc #FF0000>KWIC</fc> | <fc #FF0000>1R</fc> | <fc #FF0000>2R</fc> | 3R | 4R | 5R | 6R | 7R | 8R | |
^ pozice (počítáno zprava) | 8L | 7L | 6L | 5L | 4L | 3L | <fc #FF0000>2L</fc> | <fc #FF0000>1L</fc> | <fc #FF0000>KWIC</fc> | 1R | 2R | 3R | 4R | 5R | 6R | | ^ pozice (počítáno zprava) | 8L | 7L | 6L | 5L | 4L | 3L | <fc #FF0000>2L</fc> | <fc #FF0000>1L</fc> | <fc #FF0000>KWIC</fc> | 1R | 2R | 3R | 4R | 5R | 6R | |
| |
==== Frekvenční distribuce podle typů textů ==== | ==== Frekvenční distribuce podle typů textů ==== |
| |
| [{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] |
| |
Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.). | Frekvenční distribuci podle typů textů použijeme naopak v situacích, kdy těžiště výzkumného zájmu spočívá v textech, z nichž výskyty v konkordanci pocházejí (pokud nás tedy zajímá [[pojmy:txtype|typ textu]], [[pojmy:srclang|zdrojový jazyk]], [[pojmy:medium|médium]] apod.). |
| |
=== Příklad využití: frekvenční seznam podle typů textů === | === Příklad využití: frekvenční seznam podle typů textů === |
| |
[{{ :manualy:kontext:fqdist-txtype-drevo.png?direct&300|Frekvenční distribuce textových typů a jejich skupin lemmatu //dřevo// }}] | |
| |
Následující příklad využití frekvenční distribuce se vztahuje ke korpusu [[cnk:syn2020|SYN2020]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''): Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (bez hodnot s nulovou frekvencí). | Následující příklad využití frekvenční distribuce se vztahuje ke korpusu [[cnk:syn2020|SYN2020]] a dotazu na [[pojmy:lemma|lemma]] //dřevo// (''[lemma=%%"%%dřevo%%"%%]''): Frekvenční distribuce hodnot strukturních atributů ''txtype'' a ''txtype_group'' lemmatu //dřevo// (bez hodnot s nulovou frekvencí). |
| |
Stejně jako u jednotek pozičních je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. | Stejně jako u jednotek pozičních je u strukturních atributů možné tabulku přetřídit podle libovolného sloupce; výhodné je to zejména v situaci, kdy potřebujeme znát pořadí podle relativní četnosti, která umožňuje srovnání počtu výskytů i v nestejně velkých částech korpusu. |
| |
| ==== Disperze ==== |
| |
| Funkce [[pojmy:frekvence#disperze_jevu|Disperze]] umožňuje graficky znázornit rozložení daného vyhledaného jevu napříč textem/korpusem. V úvodním formuláři je třeba nastavit počet úseků (nejvýše 1000), na něž bude korpus pro účel zobrazení disperze rozdělen. Ve výsledném grafu jsou pak na ose //y// zaneseny počty výskytů vyhledaného jevu pro každý úsek. |
| [{{:manualy:kontext:disperze.png?direct&450|Disperze lemmatu //dřevo// (rozdělení na 100 úseků) v SYN2020 }}] |
| \\ |
| |
| |
==== Závislost dvou atributů ==== | ==== Závislost dvou atributů ==== |
**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:korpusy|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvence|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]] | **[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:korpusy|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvence|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]] |
</WRAP> | </WRAP> |
| |