AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_kolokaci [2018/08/08 11:46] – [Asociační míry] Michal Škrabalkurz:hledani_kolokaci [2018/08/29 14:51] Jan Kocek
Řádek 77: Řádek 77:
 Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:kwic|KWICu]], které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:kwic|KWICu]], které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva).
  
-[{{:kurz:kolokace-formular-default.png?direct&450|Výchozí nastavení formuláře pro identifikaci kolokací FIXME}}]+[{{:kurz:kolokace-formular-default.png?direct&300|Výchozí nastavení formuláře pro identifikaci kolokací FIXME}}]
  
 === Příklad: Rozdíly v kolokátech podle měr === === Příklad: Rozdíly v kolokátech podle měr ===
Řádek 109: Řádek 109:
 === Změna nastavení hodnot === === Změna nastavení hodnot ===
  
-Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary, bude to mít nějaký vliv? A jaký? Jak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //tratoliště// vytlačeno tvarem //prolitou//+Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary (bez ohledu na velikost písmentedy s využitím atributu [[pojmy:lc|lc]]), může to mít na výsledek často zásadní vlivJak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //tratoliště// vytlačeno tvarem //prolitou//
  
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^
Řádek 147: Řádek 147:
  
  
-V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré **p** na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu ne jen v publicistice (//Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//). +V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré <fc #6495ed>**p**</fc> na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu nejen v publicistice (//Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//). 
  
 Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//. Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//.
Řádek 155: Řádek 155:
  
 <WRAP round help 60%> <WRAP round help 60%>
-   * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v korpusu [[cnk:oral|ORAL (v1)]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. +   * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v korpusu [[cnk:oral|ORAL v1]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. 
    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.