Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:hledani_kolokaci [2018/08/08 11:46]
Michal Škrabal [Asociační míry]
kurz:hledani_kolokaci [2018/12/14 12:04] (aktuální)
Jan Kocek
Řádek 77: Řádek 77:
 Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:​kwic|KWICu]],​ které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:​kwic|KWICu]],​ které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva).
  
-[{{:​kurz:​kolokace-formular-default.png?​direct&​450|Výchozí nastavení formuláře pro identifikaci kolokací ​FIXME}}]+[{{:​kurz:​kolokace-formular-default.png?​direct&​300|Výchozí nastavení formuláře pro identifikaci kolokací }}]
  
 === Příklad: Rozdíly v kolokátech podle měr === === Příklad: Rozdíly v kolokátech podle měr ===
Řádek 105: Řádek 105:
   * Jakýmsi kompromisem je míra [[pojmy:​logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //​tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti 205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.   * Jakýmsi kompromisem je míra [[pojmy:​logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //​tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti 205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.
  
-[{{:​kurz:​krev_kolokace_lemmata.png?​400|Kolokace lemmatu //krev// setříděné podle míry logDice ​FIXME}}]+[{{:​kurz:​krev_kolokace_lemmata.png?​400|Kolokace lemmatu //krev// setříděné podle míry logDice }}]
  
 === Změna nastavení hodnot === === Změna nastavení hodnot ===
  
-Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary, ​bude to mít nějaký ​vliv? A jaký? ​Jak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //​tratoliště//​ vytlačeno tvarem //​prolitou//​. ​+Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary (bez ohledu na velikost písmentedy s využitím atributu [[pojmy:​lc|lc]]),​ může ​to mít na výsledek často zásadní ​vlivJak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //​tratoliště//​ vytlačeno tvarem //​prolitou//​. ​
  
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^
Řádek 147: Řádek 147:
  
  
-V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré **p** na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu ​ne jen v publicistice (//​Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//​),​ ale stejně tak najdeme hodně dokladů doslovného užití (//​Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//​). ​+V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré ​<fc #6495ed>**p**</​fc> ​na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu ​nejen v publicistice (//​Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//​),​ ale stejně tak najdeme hodně dokladů doslovného užití (//​Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//​). ​
  
 Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu,​ a sice [[pojmy:​frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//​ne/​přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//​. Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu,​ a sice [[pojmy:​frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//​ne/​přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//​.
Řádek 155: Řádek 155:
  
 <WRAP round help 60%> <WRAP round help 60%>
-   * Nejprve si procvičíme filtrování,​ tentokrát pomocí negativního filtru. O slově //​tratoliště//​ se běžně tvrdí, že je tzv. [[pojmy:​monokolokabilita|monokolokabilní]],​ tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]] a také v korpusu [[cnk:​oral|ORAL ​(v1)]] a odfiltrujte výskyty slovního spojení //​tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. ​+   * Nejprve si procvičíme filtrování,​ tentokrát pomocí negativního filtru. O slově //​tratoliště//​ se běžně tvrdí, že je tzv. [[pojmy:​monokolokabilita|monokolokabilní]],​ tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:​syn2010|SYN2010]] a [[cnk:​syn2015|SYN2015]] a také v korpusu [[cnk:​oral|ORAL v1]] a odfiltrujte výskyty slovního spojení //​tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. ​
    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:​asociacni_miry#​dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:​asociacni_miry#​dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.
   ​   ​