AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_kolokaci [2016/09/05 13:09] – [Využití kolokačních profilů] vaclavcvrcekkurz:hledani_kolokaci [2016/09/26 17:36] – [Filtrování konkordance] jankocek
Řádek 43: Řádek 43:
 Kolokace lze identifikovat také pomocí [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] a filtrů. Filtry jsme dosud nepoužívali, proto nejprve několik slov obecně k nim. Kolokace lze identifikovat také pomocí [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] a filtrů. Filtry jsme dosud nepoužívali, proto nejprve několik slov obecně k nim.
  
-[{{ :manualy:kontext:filtr.png?direct&600|FIXME Formulář pro filtr konkordance <fc #ff0000>(opravit podle zadání v textu)</fc>}}]+[{{ :manualy:kontext:filtr.png|Formulář pro filtr konkordance <fc #ff0000></fc>}}]
  
 Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány. Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány.
Řádek 120: Řádek 120:
 Takzvané kolokační profily či paradigmata, tedy seznam kolokátů daného slova, lze vytvářet právě na základě seznamů vygenerovaných pomocí různých asociačních měr. Díky kolokačním profilům lze například rozlišit různé významy polysémních slov. Takzvané kolokační profily či paradigmata, tedy seznam kolokátů daného slova, lze vytvářet právě na základě seznamů vygenerovaných pomocí různých asociačních měr. Díky kolokačním profilům lze například rozlišit různé významy polysémních slov.
  
-=== Příklad: Rozlišení homonym na základě kolokačních paradigmat ===+Podívejme se na příklad lexému //pravice//může jít o pravou ruku, ale i o politické uskupení. Jak v tomto rozlišení využít kolokace? Hledáme lemma //pravice// v korpusu SYN2015; kolokace vytváříme s nastavením rozsahu tři pozice okolo KWIC (od -3 do +3). Tabulka uvádí seznam 20 prominentních kolokátů lemmatu //pravice// podle asociační míry logDice.
  
-Podívejme se na příklad lexému //pravice//:že jít o pravou ruku, ale i o politické uskupení. Jak v tomto rozlišení využít kolokace?+^ Lemma ^ Frekvence ^ T-score ^ MI ^ logDice ^ Interpretace ^ 
 +| levice | 190 | 13.783 | 13.282 | 10.995 | politické uskupení (?) | 
 +| krajní | 87 | 9.325 | 12.068 | 9.828 | politické uskupení | 
 +| potřást | 46 | 6.779 | 11.084 | 8.878 | ruka | 
 +| extrémní | 42 | 6.475 | 10.206 | 8.344 | politické uskupení | 
 +| hegemon | 10 | 3.162 | 12.915 | 7.529 | politické uskupení | 
 +| zdvižený | 11 | 3.315 | 10.638 | 7.371 | ruka (?) | 
 +| volič | 28 | 5.280 | 8.888 | 7.275 | politické uskupení 
 +| volit | 36 | 5.986 | 8.730 | 7.246 | politické uskupení | 
 +| potřásat | 8 | 2.827 | 11.082 | 7.074 | ruka | 
 +| stoupenec | 11 | 3.312 | 9.564 | 7.047 | politické uskupení | 
 +| napřažený | 7 | 2.644 | 10.895 | 6.882 | ruka | 
 +| napřáhnout | 7 | 2.643 | 9.879 | 6.694 | ruka | 
 +| stisknout | 16 | 3.987 | 8.295 | 6.617 | ruka | 
 +| konzervativní | 10 | 3.153 | 8.466 | 6.464 | politické uskupení | 
 +| bašta | 6 | 2.446 | 9.617 | 6.462 | politické uskupení | 
 +| lídr | 14 | 3.727 | 8.033 | 6.377 | politické uskupení | 
 +| náboženský | 15 | 3.855 | 7.762 | 6.209 | politické uskupení | 
 +| ODS | 24 | 4.872 | 7.485 | 6.121 | politické uskupení | 
 +| radikální | 8 | 2.817 | 8.009 | 6.066 | politické uskupení | 
 +| třímat | 4 | 1.998 | 9.681 | 6.012 | ruka |
  
-[{{:kurz:kolokace_pravice_ruka.jpg?400|FIXME 20 kolokací //pravice// podle logDice, na lemmatech TÉŽ BACHA NA SPRÁVNOST UVOZOVEK}}] 
  
-[{{:kurz:kolokace_pravice_polituskup.jpg?300|FIXME První kategorizace podle významu}}] +V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré **p** na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// //levice// může odkazovat politickému uskupení, a to kupodivu ne jen v publicistice (//Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po praviciprotože na nich závisí váš život...//)
- +
-=== Precizování kolokačních profilů === +
- +
-FIXME <wrap hi>Bude odpovídat novýmu screenshotu? taky by se měl popsat ten dotaz (v kterým korpusu se hledá!?), já se ke stejnému obrázku jako na obrázku vůbec nedobral.</wrap> +
- +
-Na obrázcích výše je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré **p** na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. zařazení lemmatu //lotr// do kolokačního paradigmatu politického uskupení je omyl -- jde totiž o biblický citát (//Lotr na/po pravici//). Podobně významu //ruka// patří i kolokát //Heil//, příkladem budiž //jeho nonšalantně zdvíhaná pravice k pozdravu Heil Hitler//Mezi prvními dvaceti kolokacemi jsou tudíž pouze dva příklady kolokace s významem //politické uskupení//: slova //exponent// a //internacionální//. +
- +
-=== Příklad: Vyhledávání frazémů s komponentem srdce ===+
  
 Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//. Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//.
  
-U spojení //lamač (ženských / dívčích) srdcí// ([[https://kontext.korpus.cz/view?q=~ykwDX9lr&attr_allpos=kw&attrs=word%2Clemma&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|27 výskytů v SYN2015]] si zase snadno ověříme, že lemma //lamač// kolokuje buď s vlastními jmény, nebo právě a jen s těmito výrazy: splňuje tak podmínku silné kombinatorické anomálie a toto pojmenování můžeme zařadit mezi frazémy. 
- 
-FIXME pořád tu ale zbývá např. v SYN15 [[https://kontext.korpus.cz/view?q=~ksKPJZ0l&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|37 výskytů]]! 
  
 ===== Vyzkoušejte si na závěr ===== ===== Vyzkoušejte si na závěr =====
Řádek 146: Řádek 154:
 <WRAP round help 60%> <WRAP round help 60%>
    * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v [[cnk:oral2013|ORAL2013]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují.     * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v [[cnk:oral2013|ORAL2013]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. 
-   * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015 (rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]]a pokuste se na jejich základě interpretovat případné rozdíly.+   * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.
      
 Řešení najdete jako obvykle na [[kurz:reseni_ukolu#lekce_6|speciální stránce]]. Řešení najdete jako obvykle na [[kurz:reseni_ukolu#lekce_6|speciální stránce]].