Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:hledani_kolokaci [2018/08/08 11:27] – [Funkce meet a union] michalskrabal
+++ kurz:hledani_kolokaci [2018/08/08 11:46] – [Asociační míry] michalskrabal
@@ Řádek 47: / Řádek 47: @@
 Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány.
-Oba typy filtrů najdeme v menu **[[manualy:kontext:filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:syn2015|SYN2015]] celkem [[https://kontext.korpus.cz/view?q=~6VS0mBEr&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|12 321]] výskytů. Pokud nás zajímají adjektivní predikáty, které tomuto lemmatu předcházejí, můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru vyplníme tyto údaje:
+Oba typy filtrů najdeme v menu **[[manualy:kontext:filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:syn2015|SYN2015]] celkem [[https://kontext.korpus.cz/view?q=~6VS0mBEr&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|12 321]] výskytů. Pokud nás zajímají adjektivní přívlastky, které tomuto lemmatu předcházejí, můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru vyplníme tyto údaje:
 Filtr: **pozitivní** (chceme ponechat příklady s předcházejícím adjektivem)\\
@@ Řádek 54: / Řádek 54: @@
 Dotaz: ''%%[pos="A"]%%'' (hledá všechna adjektiva na dané pozici, viz atribut [[pojmy:pos|pos]])
-Výsledkem je konkordance, která obsahuje [[https://kontext.korpus.cz/view?q=~4T4SSHFn&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|3275]] výskytů lemmatu //kolega//, kterému poředchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek, ve většině případů tomu tak bude (můžeme si to ověřit na [[kurz:vytvareni_vzorku|vzorku]]).
+Výsledkem je konkordance, která obsahuje [[https://kontext.korpus.cz/view?q=~4T4SSHFn&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|3275]] výskytů lemmatu //kolega//, kterému poředchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek, ve většině případů tomu tak je (můžeme si to ověřit na [[kurz:vytvareni_vzorku|vzorku]]).
 Konečné vyhodnocení provedeme pomocí frekvenční distribuce **Frekvence → Vlastní** – zkoumat budeme první předcházející pozici (1L), a to na základě lemmatu. Ve výsledku bychom měli objevit následující slova:
@@ Řádek 77: / Řádek 77: @@
 Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:kwic|KWICu]], které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva).
-[{{:kurz:kolokace-formular-default.png?direct&450|Výchozí nastavení formuláře pro identifikaci kolokací}}]
+[{{:kurz:kolokace-formular-default.png?direct&450|Výchozí nastavení formuláře pro identifikaci kolokací FIXME}}]
 === Příklad: Rozdíly v kolokátech podle měr ===
@@ Řádek 84: / Řádek 84: @@
 <WRAP round help 50%>
-Hledáme v korpusu [[cnk:syn2010|SYN2010]]
+Hledáme v korpusu [[cnk:syn2015|SYN2015]]
   * Vyhledáme lemma //krev//
   * V menu zvolíme možnost **[[manualy:kontext:kolokace|Kolokace]]**
@@ Řádek 93: / Řádek 93: @@
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ Frekvence ^
-^ 1. kolokát | téci | . | bezpříspěvkový | . |
+^ 1. kolokát | téci | . | odkysličený | . |
-^ 2. kolokát | žíla | , | pupečníkový | , |
+^ 2. kolokát | žíla | , | srážlivý | , |
-^ 3. kolokát | alkohol | a | odkysličený | a |
+^ 3. kolokát | kapka | a | podlitý | a |
-^ 4. kolokát | promile | v | tratoliště | v |
+^ 4. kolokát | hladina | v | prolitý | v |
+^ 5. kolokát | odběr | být | pupečníkový | být |
+^ 6. kolokát | krev | se | tratoliště | se |
 Zjednodušeně lze výsledky interpretovat takto:
   * Na [[pojmy:frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence.
   * Naopak [[pojmy:mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo.
-  * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti 173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.
+  * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti 205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.
-[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice}}]
+[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice FIXME}}]
 === Změna nastavení hodnot ===
@@ Řádek 110: / Řádek 112: @@
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^
-^ 1. kolokát | žilách | . | bezpříspěvkového  |
+^ 1. kolokát | žilách | . | nesrážlivé |
-^ 2. kolokát | promile | , | prolitou |
+^ 2. kolokát | tekla | , | podlitých |
-^ 3. kolokát | alkoholu | a | okysličené |
+^ 3. kolokát | teče | a | podlitý |
-^ 4. kolokát | tekla | v | pupečníkové |
+^ 4. kolokát | cukru | v | odkysličená |
+^ 5. kolokát | hladinu | se | zbrocených |
+^ 6. kolokát | krev | z | prolitou |
 ===== Využití kolokačních profilů =====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence