Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_kolokaci [2018/08/08 11:32] – [Filtrování konkordance] Michal Škrabal | kurz:hledani_kolokaci [2018/08/29 14:51] – Jan Kocek |
---|
Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:kwic|KWICu]], které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). | Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:kwic|KWICu]], které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). |
| |
[{{:kurz:kolokace-formular-default.png?direct&450|Výchozí nastavení formuláře pro identifikaci kolokací}}] | [{{:kurz:kolokace-formular-default.png?direct&300|Výchozí nastavení formuláře pro identifikaci kolokací FIXME}}] |
| |
=== Příklad: Rozdíly v kolokátech podle měr === | === Příklad: Rozdíly v kolokátech podle měr === |
| |
<WRAP round help 50%> | <WRAP round help 50%> |
Hledáme v korpusu [[cnk:syn2010|SYN2010]] | Hledáme v korpusu [[cnk:syn2015|SYN2015]] |
* Vyhledáme lemma //krev// | * Vyhledáme lemma //krev// |
* V menu zvolíme možnost **[[manualy:kontext:kolokace|Kolokace]]** | * V menu zvolíme možnost **[[manualy:kontext:kolokace|Kolokace]]** |
| |
^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ Frekvence ^ | ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ Frekvence ^ |
^ 1. kolokát | téci | . | bezpříspěvkový | . | | ^ 1. kolokát | téci | . | odkysličený | . | |
^ 2. kolokát | žíla | , | pupečníkový | , | | ^ 2. kolokát | žíla | , | srážlivý | , | |
^ 3. kolokát | alkohol | a | odkysličený | a | | ^ 3. kolokát | kapka | a | podlitý | a | |
^ 4. kolokát | promile | v | tratoliště | v | | ^ 4. kolokát | hladina | v | prolitý | v | |
| ^ 5. kolokát | odběr | být | pupečníkový | být | |
| ^ 6. kolokát | krev | se | tratoliště | se | |
| |
Zjednodušeně lze výsledky interpretovat takto: | Zjednodušeně lze výsledky interpretovat takto: |
* Na [[pojmy:frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence. | * Na [[pojmy:frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence. |
* Naopak [[pojmy:mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo. | * Naopak [[pojmy:mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo. |
* Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti 173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score. | * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti 205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score. |
| |
[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice}}] | [{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice FIXME}}] |
| |
=== Změna nastavení hodnot === | === Změna nastavení hodnot === |
| |
Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary, bude to mít nějaký vliv? A jaký? Jak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //tratoliště// vytlačeno tvarem //prolitou//. | Nebudeme-li hledat kolokáty jako lemmata, ale jako konkrétní tvary (bez ohledu na velikost písmen, tedy s využitím atributu [[pojmy:lc|lc]]), může to mít na výsledek často zásadní vliv. Jak je vidět v tabulce, u logDice se v tomto případě pouze vyměnilo pořadí, T-score zůstalo stejné, ovšem z MI-score bylo //tratoliště// vytlačeno tvarem //prolitou//. |
| |
^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ | ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ |
^ 1. kolokát | žilách | . | bezpříspěvkového | | ^ 1. kolokát | žilách | . | nesrážlivé | |
^ 2. kolokát | promile | , | prolitou | | ^ 2. kolokát | tekla | , | podlitých | |
^ 3. kolokát | alkoholu | a | okysličené | | ^ 3. kolokát | teče | a | podlitý | |
^ 4. kolokát | tekla | v | pupečníkové | | ^ 4. kolokát | cukru | v | odkysličená | |
| ^ 5. kolokát | hladinu | se | zbrocených | |
| ^ 6. kolokát | krev | z | prolitou | |
===== Využití kolokačních profilů ===== | ===== Využití kolokačních profilů ===== |
| |
| |
| |
V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré **p** na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu ne jen v publicistice (//Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//). | V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré <fc #6495ed>**p**</fc> na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu nejen v publicistice (//Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//). |
| |
Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//. | Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//. |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
* Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v korpusu [[cnk:oral|ORAL (v1)]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. | * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v korpusu [[cnk:oral|ORAL v1]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. |
* Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly. | * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly. |
| |