Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:hledani_kolokaci [2018/03/27 14:27]
Michal Škrabal [Vyzkoušejte si na závěr]
kurz:hledani_kolokaci [2018/08/08 11:59] (aktuální)
Václav Cvrček [Asociační míry]
Řádek 3: Řádek 3:
 V minulých lekcích jsme se zaměřovali na [[kurz:​vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:​regularni_vyrazy|regulárních výrazů]] a [[kurz:​pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:​kolokace|kolokace]]. V minulých lekcích jsme se zaměřovali na [[kurz:​vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:​regularni_vyrazy|regulárních výrazů]] a [[kurz:​pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:​kolokace|kolokace]].
  
-Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, ​mezi něž patří slovní spojení jako //​čokoládový dort, zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:+Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, ​kam patří slovní spojení jako //​čokoládový dort////zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:
  
-  * běžné kolokace (//letní šaty, vejce naměkko//​) +  * běžné kolokace (//letní šaty////vejce naměkko//​) 
-  * frazémy a idiomy (//ležet ladem, růžové brýle//)  +  * frazémy a idiomy (//ležet ladem////růžové brýle//)  
-  * víceslovné termíny (//infarkt myokardu, červí díra//) +  * víceslovné termíny (//infarkt myokardu////červí díra//) 
-  * víceslovná vlastní jména (//​Andělská Hora, Kostelec nad Černými Lesy//)+  * víceslovná vlastní jména (//​Andělská Hora////Kostelec nad Černými Lesy//)
  
-Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**,​ jako jsou //růžové šaty, ležet odpoledne, nové brýle, pozorovat vrabce// apod.  ​+Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**,​ jako jsou //růžové šaty////ležet odpoledne////nové brýle////pozorovat vrabce// apod.  ​
  
  
Řádek 30: Řádek 30:
  
 <wrap lo> <wrap lo>
-Každý dotaz typu **meet** lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''​%%([lemma="​prát"​][]{0,​2}[lemma="​prádlo"​])|([lemma="​prádlo"​][]{0,​2}[lemma="​prát"​])%%''​. Ačkoli oba dotazy identifikují stejnou množinu konkordancí,​ budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu ​**meet** to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi.+Každý dotaz typu meet lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''​%%([lemma="​prát"​][]{0,​2}[lemma="​prádlo"​])|([lemma="​prádlo"​][]{0,​2}[lemma="​prát"​])%%''​. Ačkoli oba dotazy identifikují stejnou množinu konkordancí,​ budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu meet to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi.
 </​wrap>​ </​wrap>​
  
-Funkce **union** pomáhá slučovat dotazy typů **meet**. Její syntax je takováto: ''​(union (meet...) (meet...))''​.+Funkce **union** pomáhá slučovat dotazy typů meet. Její syntax je takováto: ''​(union (meet...) (meet...))''​.
  
-Dotaz ''​%%(union (meet [lemma="​prát"​][lemma="​prádlo"​] -3 3) (meet [lemma="​mýt"​][lemma="​nádobí"​] -3 3))%%''​ vyhodnotí nejprve oba dotazy ​typu **meet** a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //​prádlo//,​ a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //​nádobí//​. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://​kontext.korpus.cz/​view?​q=~a0WNhXzd&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|319]].+Dotaz ''​%%(union (meet [lemma="​prát"​][lemma="​prádlo"​] -3 3) (meet [lemma="​mýt"​][lemma="​nádobí"​] -3 3))%%''​ vyhodnotí nejprve oba dotazy ​s příkazem ​meet a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //​prádlo//,​ a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //​nádobí//​. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://​kontext.korpus.cz/​view?​q=~a0WNhXzd&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|319]].
  
 Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability,​ pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). ​ Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability,​ pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). ​
Řádek 47: Řádek 47:
 Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:​konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány. Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:​konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány.
  
-Oba typy filtrů najdeme v menu **[[manualy:​kontext:​filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:​syn2015|SYN2015]] celkem [[https://​kontext.korpus.cz/​view?​q=~6VS0mBEr&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|12 321]] výskytů. Pokud nás zajímají adjektivní ​predikáty, které tomuto lemmatu předcházejí,​ můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru vyplníme tyto údaje:+Oba typy filtrů najdeme v menu **[[manualy:​kontext:​filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:​syn2015|SYN2015]] celkem [[https://​kontext.korpus.cz/​view?​q=~6VS0mBEr&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|12 321]] výskytů. Pokud nás zajímají adjektivní ​přívlastky, které tomuto lemmatu předcházejí,​ můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru vyplníme tyto údaje:
  
 Filtr: **pozitivní** (chceme ponechat příklady s předcházejícím adjektivem)\\ Filtr: **pozitivní** (chceme ponechat příklady s předcházejícím adjektivem)\\
Řádek 54: Řádek 54:
 Dotaz: ''​%%[pos="​A"​]%%''​ (hledá všechna adjektiva na dané pozici, viz atribut [[pojmy:​pos|pos]]) Dotaz: ''​%%[pos="​A"​]%%''​ (hledá všechna adjektiva na dané pozici, viz atribut [[pojmy:​pos|pos]])
  
-Výsledkem je konkordance,​ která obsahuje [[https://​kontext.korpus.cz/​view?​q=~4T4SSHFn&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|3275]] výskytů lemmatu //kolega//, kterému poředchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek,​ ve většině případů tomu tak bude (můžeme si to ověřit na [[kurz:​vytvareni_vzorku|vzorku]]).+Výsledkem je konkordance,​ která obsahuje [[https://​kontext.korpus.cz/​view?​q=~4T4SSHFn&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=30&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|3275]] výskytů lemmatu //kolega//, kterému poředchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek,​ ve většině případů tomu tak je (můžeme si to ověřit na [[kurz:​vytvareni_vzorku|vzorku]]).
  
 Konečné vyhodnocení provedeme pomocí frekvenční distribuce **Frekvence → Vlastní** – zkoumat budeme první předcházející pozici (1L), a to na základě lemmatu. Ve výsledku bychom měli objevit následující slova: Konečné vyhodnocení provedeme pomocí frekvenční distribuce **Frekvence → Vlastní** – zkoumat budeme první předcházející pozici (1L), a to na základě lemmatu. Ve výsledku bychom měli objevit následující slova:
Řádek 77: Řádek 77:
 Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:​kwic|KWICu]],​ které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:​kwic|KWICu]],​ které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva).
  
-[{{:​kurz:​kolokace-formular-default.png?​direct&​450|Výchozí nastavení formuláře pro identifikaci kolokací}}]+[{{:​kurz:​kolokace-formular-default.png?​direct&​450|Výchozí nastavení formuláře pro identifikaci kolokací ​FIXME}}]
  
 === Příklad: Rozdíly v kolokátech podle měr === === Příklad: Rozdíly v kolokátech podle měr ===
Řádek 84: Řádek 84:
  
 <WRAP round help 50%> <WRAP round help 50%>
-Hledáme v korpusu [[cnk:syn2010|SYN2010]]+Hledáme v korpusu [[cnk:syn2015|SYN2015]]
   * Vyhledáme lemma //krev//   * Vyhledáme lemma //krev//
   * V menu zvolíme možnost **[[manualy:​kontext:​kolokace|Kolokace]]**   * V menu zvolíme možnost **[[manualy:​kontext:​kolokace|Kolokace]]**
Řádek 93: Řádek 93:
  
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ Frekvence ^ ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ Frekvence ^
-^ 1. kolokát | téci | . | bezpříspěvkový ​| . | +^ 1. kolokát | téci | . | odkysličený ​| . | 
-^ 2. kolokát | žíla | , | pupečníkový ​| , | +^ 2. kolokát | žíla | , | srážlivý ​| , | 
-^ 3. kolokát | alkohol ​| a | odkysličený ​| a | +^ 3. kolokát | kapka | a | podlitý ​| a | 
-^ 4. kolokát | promile ​| v | tratoliště | |+^ 4. kolokát | hladina ​| v | prolitý | v | 
 +^ 5. kolokát | odběr | být | pupečníkový | být | 
 +^ 6. kolokát | krev | se | tratoliště | se |
  
 Zjednodušeně lze výsledky interpretovat takto: ​ Zjednodušeně lze výsledky interpretovat takto: ​
   * Na [[pojmy:​frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:​t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence. ​   * Na [[pojmy:​frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:​t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence. ​
   * Naopak [[pojmy:​mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //​tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo.   * Naopak [[pojmy:​mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //​tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo.
-  * Jakýmsi kompromisem je míra [[pojmy:​logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //​tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti ​173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.+  * Jakýmsi kompromisem je míra [[pojmy:​logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //​tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti ​205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.
  
-[{{:​kurz:​krev_kolokace_lemmata.png?​400|Kolokace lemmatu //krev// setříděné podle míry logDice}}]+[{{:​kurz:​krev_kolokace_lemmata.png?​400|Kolokace lemmatu //krev// setříděné podle míry logDice ​FIXME}}]
  
 === Změna nastavení hodnot === === Změna nastavení hodnot ===
  
-Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary, ​bude to mít nějaký ​vliv? A jaký? ​Jak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //​tratoliště//​ vytlačeno tvarem //​prolitou//​. ​+Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary (bez ohledu na velikost písmentedy s využitím atributu [[pojmy:​lc|lc]]),​ může ​to mít na výsledek často zásadní ​vlivJak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //​tratoliště//​ vytlačeno tvarem //​prolitou//​. ​
  
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^
-^ 1. kolokát | žilách | . | bezpříspěvkového  ​+^ 1. kolokát | žilách | . | nesrážlivé ​
-^ 2. kolokát | promile ​| , | prolitou ​|  +^ 2. kolokát | tekla | , | podlitých ​|  
-^ 3. kolokát | alkoholu ​| a | okysličené ​|  +^ 3. kolokát | teče | a | podlitý ​|  
-^ 4. kolokát | tekla | v | pupečníkové ​|  +^ 4. kolokát | cukru | v | odkysličená |  
- +^ 5. kolokát | hladinu | se | zbrocených |  
 +^ 6. kolokát | krev | z | prolitou | 
 ===== Využití kolokačních profilů ===== ===== Využití kolokačních profilů =====
  
Řádek 145: Řádek 147:
  
  
-V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré **p** na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu ​ne jen v publicistice (//​Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//​),​ ale stejně tak najdeme hodně dokladů doslovného užití (//​Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//​). ​+V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré ​<fc #6495ed>**p**</​fc> ​na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu ​nejen v publicistice (//​Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//​),​ ale stejně tak najdeme hodně dokladů doslovného užití (//​Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//​). ​
  
 Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu,​ a sice [[pojmy:​frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//​ne/​přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//​. Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu,​ a sice [[pojmy:​frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//​ne/​přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//​.
Řádek 153: Řádek 155:
  
 <WRAP round help 60%> <WRAP round help 60%>
-   * Nejprve si procvičíme filtrování,​ tentokrát pomocí negativního filtru. O slově //​tratoliště//​ se běžně tvrdí, že je tzv. [[pojmy:​monokolokabilita|monokolokabilní]],​ tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]] a také v korpusu [[cnk:​oral|ORAL ​(v1)]] a odfiltrujte výskyty slovního spojení //​tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. ​+   * Nejprve si procvičíme filtrování,​ tentokrát pomocí negativního filtru. O slově //​tratoliště//​ se běžně tvrdí, že je tzv. [[pojmy:​monokolokabilita|monokolokabilní]],​ tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]] a také v korpusu [[cnk:​oral|ORAL v1]] a odfiltrujte výskyty slovního spojení //​tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. ​
    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:​asociacni_miry#​dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:​asociacni_miry#​dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.
   ​   ​