Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:hledani_kolokaci [2016/09/05 13:04]
Václav Cvrček [Asociační míry]
kurz:hledani_kolokaci [2018/12/14 12:04] (aktuální)
Jan Kocek
Řádek 3: Řádek 3:
 V minulých lekcích jsme se zaměřovali na [[kurz:​vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:​regularni_vyrazy|regulárních výrazů]] a [[kurz:​pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:​kolokace|kolokace]]. V minulých lekcích jsme se zaměřovali na [[kurz:​vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:​regularni_vyrazy|regulárních výrazů]] a [[kurz:​pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:​kolokace|kolokace]].
  
-Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, ​mezi něž patří slovní spojení jako //​čokoládový dort, zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:+Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, ​kam patří slovní spojení jako //​čokoládový dort////zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:
  
-  * běžné kolokace (//letní šaty, vejce naměkko//​) +  * běžné kolokace (//letní šaty////vejce naměkko//​) 
-  * frazémy a idiomy (//ležet ladem, růžové brýle//)  +  * frazémy a idiomy (//ležet ladem////růžové brýle//)  
-  * víceslovné termíny (//infarkt myokardu, červí díra//) +  * víceslovné termíny (//infarkt myokardu////červí díra//) 
-  * víceslovná vlastní jména (//​Andělská Hora, Kostelec nad Černými Lesy//)+  * víceslovná vlastní jména (//​Andělská Hora////Kostelec nad Černými Lesy//)
  
-Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**,​ jako jsou //růžové šaty, ležet odpoledne, nové brýle, pozorovat vrabce// apod.  ​+Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**,​ jako jsou //růžové šaty////ležet odpoledne////nové brýle////pozorovat vrabce// apod.  ​
  
  
Řádek 30: Řádek 30:
  
 <wrap lo> <wrap lo>
-Každý dotaz typu **meet** lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''​%%([lemma="​prát"​][]{0,​2}[lemma="​prádlo"​])|([lemma="​prádlo"​][]{0,​2}[lemma="​prát"​])%%''​. Ačkoli oba dotazy identifikují stejnou množinu konkordancí,​ budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu ​**meet** to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi.+Každý dotaz typu meet lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''​%%([lemma="​prát"​][]{0,​2}[lemma="​prádlo"​])|([lemma="​prádlo"​][]{0,​2}[lemma="​prát"​])%%''​. Ačkoli oba dotazy identifikují stejnou množinu konkordancí,​ budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu meet to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi.
 </​wrap>​ </​wrap>​
  
-Funkce **union** pomáhá slučovat dotazy typů **meet**. Její syntax je takováto: ''​(union (meet...) (meet...))''​.+Funkce **union** pomáhá slučovat dotazy typů meet. Její syntax je takováto: ''​(union (meet...) (meet...))''​.
  
-Dotaz ''​%%(union (meet [lemma="​prát"​][lemma="​prádlo"​] -3 3) (meet [lemma="​mýt"​][lemma="​nádobí"​] -3 3))%%''​ vyhodnotí nejprve oba dotazy ​typu **meet** a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //​prádlo//,​ a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //​nádobí//​. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://​kontext.korpus.cz/​view?​q=~a0WNhXzd&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|319]].+Dotaz ''​%%(union (meet [lemma="​prát"​][lemma="​prádlo"​] -3 3) (meet [lemma="​mýt"​][lemma="​nádobí"​] -3 3))%%''​ vyhodnotí nejprve oba dotazy ​s příkazem ​meet a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //​prádlo//,​ a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //​nádobí//​. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://​kontext.korpus.cz/​view?​q=~a0WNhXzd&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|319]].
  
 Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability,​ pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). ​ Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability,​ pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). ​
Řádek 43: Řádek 43:
 Kolokace lze identifikovat také pomocí [[manualy:​kontext:​frekvencni_distribuce|frekvenční distribuce]] a filtrů. Filtry jsme dosud nepoužívali,​ proto nejprve několik slov obecně k nim. Kolokace lze identifikovat také pomocí [[manualy:​kontext:​frekvencni_distribuce|frekvenční distribuce]] a filtrů. Filtry jsme dosud nepoužívali,​ proto nejprve několik slov obecně k nim.
  
-[{{ :​manualy:​kontext:​filtr.png?​direct&​600|FIXME Formulář pro filtr konkordance ​<fc #​ff0000>​(opravit podle zadání v textu)</​fc>​}}]+[{{ :​manualy:​kontext:​filtr.png|Formulář pro filtr konkordance}}]
  
 Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:​konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány. Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:​konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány.
  
-Oba typy filtrů najdeme v menu **[[manualy:​kontext:​filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:​syn2015|SYN2015]] celkem [[https://​kontext.korpus.cz/​view?​q=~6VS0mBEr&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|12 321]] výskytů. Pokud nás zajímají adjektivní ​predikáty, které tomuto lemmatu předcházejí,​ můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru vyplníme tyto údaje:+Oba typy filtrů najdeme v menu **[[manualy:​kontext:​filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:​syn2015|SYN2015]] celkem [[https://​kontext.korpus.cz/​view?​q=~6VS0mBEr&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|12 321]] výskytů. Pokud nás zajímají adjektivní ​přívlastky, které tomuto lemmatu předcházejí,​ můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru vyplníme tyto údaje:
  
 Filtr: **pozitivní** (chceme ponechat příklady s předcházejícím adjektivem)\\ Filtr: **pozitivní** (chceme ponechat příklady s předcházejícím adjektivem)\\
Řádek 54: Řádek 54:
 Dotaz: ''​%%[pos="​A"​]%%''​ (hledá všechna adjektiva na dané pozici, viz atribut [[pojmy:​pos|pos]]) Dotaz: ''​%%[pos="​A"​]%%''​ (hledá všechna adjektiva na dané pozici, viz atribut [[pojmy:​pos|pos]])
  
-Výsledkem je konkordance,​ která obsahuje [[https://​kontext.korpus.cz/​view?​q=~4T4SSHFn&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|3275]] výskytů lemmatu //kolega//, kterému poředchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek,​ ve většině případů tomu tak bude (můžeme si to ověřit na [[kurz:​vytvareni_vzorku|vzorku]]).+Výsledkem je konkordance,​ která obsahuje [[https://​kontext.korpus.cz/​view?​q=~4T4SSHFn&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|3275]] výskytů lemmatu //kolega//, kterému poředchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek,​ ve většině případů tomu tak je (můžeme si to ověřit na [[kurz:​vytvareni_vzorku|vzorku]]).
  
 Konečné vyhodnocení provedeme pomocí frekvenční distribuce **Frekvence → Vlastní** – zkoumat budeme první předcházející pozici (1L), a to na základě lemmatu. Ve výsledku bychom měli objevit následující slova: Konečné vyhodnocení provedeme pomocí frekvenční distribuce **Frekvence → Vlastní** – zkoumat budeme první předcházející pozici (1L), a to na základě lemmatu. Ve výsledku bychom měli objevit následující slova:
Řádek 77: Řádek 77:
 Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:​kwic|KWICu]],​ které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:​kwic|KWICu]],​ které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva).
  
-[{{:​kurz:​kolokace-formular-default.png?​direct&​450|Výchozí nastavení formuláře pro identifikaci kolokací}}]+[{{:​kurz:​kolokace-formular-default.png?​direct&​300|Výchozí nastavení formuláře pro identifikaci kolokací }}]
  
 === Příklad: Rozdíly v kolokátech podle měr === === Příklad: Rozdíly v kolokátech podle měr ===
Řádek 84: Řádek 84:
  
 <WRAP round help 50%> <WRAP round help 50%>
-Hledáme v korpusu [[cnk:syn2010|SYN2010]]+Hledáme v korpusu [[cnk:syn2015|SYN2015]]
   * Vyhledáme lemma //krev//   * Vyhledáme lemma //krev//
   * V menu zvolíme možnost **[[manualy:​kontext:​kolokace|Kolokace]]**   * V menu zvolíme možnost **[[manualy:​kontext:​kolokace|Kolokace]]**
Řádek 93: Řádek 93:
  
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ Frekvence ^ ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ Frekvence ^
-^ 1. kolokát | téci | . | bezpříspěvkový ​| . | +^ 1. kolokát | téci | . | odkysličený ​| . | 
-^ 2. kolokát | žíla | , | pupečníkový ​| , | +^ 2. kolokát | žíla | , | srážlivý ​| , | 
-^ 3. kolokát | alkohol ​| a | odkysličený ​| a | +^ 3. kolokát | kapka | a | podlitý ​| a | 
-^ 4. kolokát | promile ​| v | tratoliště | |+^ 4. kolokát | hladina ​| v | prolitý | v | 
 +^ 5. kolokát | odběr | být | pupečníkový | být | 
 +^ 6. kolokát | krev | se | tratoliště | se |
  
 Zjednodušeně lze výsledky interpretovat takto: ​ Zjednodušeně lze výsledky interpretovat takto: ​
   * Na [[pojmy:​frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:​t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence. ​   * Na [[pojmy:​frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:​t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence. ​
   * Naopak [[pojmy:​mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //​tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo.   * Naopak [[pojmy:​mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //​tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo.
-  * Jakýmsi kompromisem je míra [[pojmy:​logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //​tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti ​173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.+  * Jakýmsi kompromisem je míra [[pojmy:​logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //​tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti ​205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.
  
-[{{:​kurz:​krev_kolokace_lemmata.png?​400|Kolokace lemmatu //krev// setříděné podle míry logDice ​FIXME PROČ 3141 (1 STR.) STRAN JE 79}}]+[{{:​kurz:​krev_kolokace_lemmata.png?​400|Kolokace lemmatu //krev// setříděné podle míry logDice }}]
  
 === Změna nastavení hodnot === === Změna nastavení hodnot ===
  
-Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary, ​bude to mít nějaký ​vliv? A jaký? ​Jak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //​tratoliště//​ vytlačeno tvarem //​prolitou//​. ​+Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary (bez ohledu na velikost písmentedy s využitím atributu [[pojmy:​lc|lc]]),​ může ​to mít na výsledek často zásadní ​vlivJak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //​tratoliště//​ vytlačeno tvarem //​prolitou//​. ​
  
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^
-^ 1. kolokát | žilách | . | bezpříspěvkového  ​+^ 1. kolokát | žilách | . | nesrážlivé ​
-^ 2. kolokát | promile ​| , | prolitou ​|  +^ 2. kolokát | tekla | , | podlitých ​|  
-^ 3. kolokát | alkoholu ​| a | okysličené ​|  +^ 3. kolokát | teče | a | podlitý ​|  
-^ 4. kolokát | tekla | v | pupečníkové ​|  +^ 4. kolokát | cukru | v | odkysličená |  
- +^ 5. kolokát | hladinu | se | zbrocených |  
 +^ 6. kolokát | krev | z | prolitou | 
 ===== Využití kolokačních profilů ===== ===== Využití kolokačních profilů =====
  
 Takzvané kolokační profily či paradigmata,​ tedy seznam kolokátů daného slova, lze vytvářet právě na základě seznamů vygenerovaných pomocí různých asociačních měr. Díky kolokačním profilům lze například rozlišit různé významy polysémních slov. Takzvané kolokační profily či paradigmata,​ tedy seznam kolokátů daného slova, lze vytvářet právě na základě seznamů vygenerovaných pomocí různých asociačních měr. Díky kolokačním profilům lze například rozlišit různé významy polysémních slov.
  
-=== Příklad: ​Rozlišení ​homonym na základě kolokačních paradigmat ===+Podívejme se na příklad ​lexému //pravice//může jít o pravou ruku, ale i o politické uskupení. Jak v tomto rozlišení ​využít kolokace? Hledáme lemma //pravice// v korpusu SYN2015; kolokace vytváříme s nastavením rozsahu tři pozice okolo KWIC (od -3 do +3). Tabulka uvádí seznam 20 prominentních kolokátů lemmatu //pravice// podle asociační míry logDice.
  
-Podívejme se na příklad lexému //​pravice//:​ může jít o pravou ruku, ale i o politické uskupení. ​Jak v tomto rozlišení využít kolokace?+^ Lemma ^ Frekvence ^ T-score ^ MI ^ logDice ^ Interpretace ^ 
 +| levice | 190 | 13.783 | 13.282 | 10.995 | politické uskupení (?) | 
 +| krajní | 87 | 9.325 | 12.068 | 9.828 | politické uskupení | 
 +| potřást | 46 | 6.779 | 11.084 | 8.878 | ruka | 
 +| extrémní | 42 | 6.475 | 10.206 | 8.344 | politické uskupení | 
 +| hegemon | 10 | 3.162 | 12.915 | 7.529 | politické uskupení | 
 +| zdvižený | 11 | 3.315 | 10.638 | 7.371 | ruka (?) | 
 +| volič | 28 | 5.280 | 8.888 | 7.275 | politické uskupení ​
 +| volit | 36 | 5.986 | 8.730 | 7.246 | politické uskupení | 
 +| potřásat | 8 | 2.827 | 11.082 | 7.074 | ruka | 
 +| stoupenec | 11 | 3.312 | 9.564 | 7.047 | politické uskupení | 
 +| napřažený | 7 | 2.644 | 10.895 | 6.882 | ruka | 
 +| napřáhnout | 7 | 2.643 | 9.879 | 6.694 | ruka | 
 +| stisknout | 16 | 3.987 | 8.295 | 6.617 | ruka | 
 +| konzervativní | 10 | 3.153 | 8.466 | 6.464 | politické uskupení | 
 +| bašta | 6 | 2.446 | 9.617 | 6.462 | politické uskupení | 
 +| lídr | 14 | 3.727 | 8.033 | 6.377 | politické uskupení | 
 +| náboženský | 15 | 3.855 | 7.762 | 6.209 | politické uskupení | 
 +| ODS | 24 | 4.872 | 7.485 | 6.121 | politické uskupení | 
 +| radikální | 8 | 2.817 | 8.009 | 6.066 | politické uskupení | 
 +| třímat | 4 | 1.998 | 9.681 | 6.012 | ruka |
  
-[{{:​kurz:​kolokace_pravice_ruka.jpg?​400|FIXME 20 kolokací //pravice// podle logDice, na lemmatech TÉŽ BACHA NA SPRÁVNOST UVOZOVEK}}] 
  
-[{{:​kurz:​kolokace_pravice_polituskup.jpg?​300|FIXME První kategorizace podle významu}}] +V tabulce ​je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré ​<fc #6495ed>**p**</​fc> ​na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. ​kolokace ​//pravice// //levice// může odkazovat ​politickému uskupení, a to kupodivu nejen v publicistice (//Nezajímalo nás, jestli ​patří ​k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po praviciprotože na nich závisí váš život...//)
- +
-== Precizování kolokačních profilů == +
- +
-FIXME <wrap hi>Bude odpovídat novýmu screenshotu?​ taky by se měl popsat ten dotaz (v kterým korpusu se hledá!?), já se ke stejnému obrázku jako na obrázku vůbec nedobral.</​wrap>​ +
- +
-Na obrázcích výše ​je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré **p** na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. ​zařazení lemmatu ​//lotr// do kolokačního paradigmatu politického uskupení je omyl -- jde totiž o biblický citát (//Lotr na/po pravici//). Podobně ​významu //ruka// patří ​i kolokát ​//Heil//, příkladem budiž //jeho nonšalantně zdvíhaná pravice k pozdravu Heil Hitler//Mezi prvními dvaceti kolokacemi jsou tudíž pouze dva příklady kolokace s významem //​politické uskupení//:​ slova //​exponent//​ a //​internacionální//. +
- +
-=== Příklad: Vyhledávání frazémů s komponentem srdce ===+
  
 Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu,​ a sice [[pojmy:​frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//​ne/​přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//​. Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu,​ a sice [[pojmy:​frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//​ne/​přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//​.
  
-U spojení //lamač (ženských / dívčích) srdcí// ([[https://​kontext.korpus.cz/​view?​q=~ykwDX9lr&​attr_allpos=kw&​attrs=word%2Clemma&​corpname=syn2015&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|27 výskytů v SYN2015]] si zase snadno ověříme, že lemma //lamač// kolokuje buď s vlastními jmény, nebo právě a jen s těmito výrazy: splňuje tak podmínku silné kombinatorické anomálie a toto pojmenování můžeme zařadit mezi frazémy. 
- 
-FIXME pořád tu ale zbývá např. v SYN15 [[https://​kontext.korpus.cz/​view?​q=~ksKPJZ0l&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|37 výskytů]]! 
  
 ===== Vyzkoušejte si na závěr ===== ===== Vyzkoušejte si na závěr =====
  
 <WRAP round help 60%> <WRAP round help 60%>
-   * Nejprve si procvičíme filtrování,​ tentokrát pomocí negativního filtru. O slově //​tratoliště//​ se běžně tvrdí, že je tzv. [[pojmy:​monokolokabilita|monokolokabilní]],​ tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]] a také v [[cnk:oral2013|ORAL2013]] a odfiltrujte výskyty slovního spojení //​tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují.  +   * Nejprve si procvičíme filtrování,​ tentokrát pomocí negativního filtru. O slově //​tratoliště//​ se běžně tvrdí, že je tzv. [[pojmy:​monokolokabilita|monokolokabilní]],​ tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]] a také v korpusu ​[[cnk:oral|ORAL v1]] a odfiltrujte výskyty slovního spojení //​tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují.  
-   * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015 ​(rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:​asociacni_miry#​dice_a_logdice|asociační míry logDice]]a pokuste se na jejich základě interpretovat případné rozdíly.+   * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:​asociacni_miry#​dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.
   ​   ​
 Řešení najdete jako obvykle na [[kurz:​reseni_ukolu#​lekce_6|speciální stránce]]. Řešení najdete jako obvykle na [[kurz:​reseni_ukolu#​lekce_6|speciální stránce]].