AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
kurz:hledani_kolokaci [2018/08/08 11:38] – [Asociační míry] michalskrabalkurz:hledani_kolokaci [2018/08/08 11:46] – [Asociační míry] michalskrabal
Řádek 103: Řádek 103:
   * Na [[pojmy:frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence.    * Na [[pojmy:frekvence|frekvenci]] souvýskytu je založena míra [[pojmy:t-score|T-score]] (3. sloupec), což je vidět i na její shodě s kolokacemi určenými podle pouhé frekvence (5. sloupec). Tato míra preferuje hodně častá slova (jak vidno, patří mezi ně interpunkční znaménka a gramatické výrazy), a co do lexikální sémantiky proto na těchto nejvyšších pozicích příliš vypovídající nebývá. Smysluplné kolokace je tedy nutno hledat níže v seznamu, je-li tento setříděn podle T-score nebo frekvence. 
   * Naopak [[pojmy:mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo.   * Naopak [[pojmy:mi-score|MI-score]] (4. sloupec) upřednostňuje slova s nízkou frekvencí, což může vést k jinému typu zkreslení: pokud se některé výrazy v korpusu vyskytují opravdu řídce, může to být způsobeno i náhodou (danou zařazením konkrétního textu), že zrovna daný výraz míra identifikovala jako kolokaci. Na druhou stranu však bývá vhodná pro identifikaci kolokací typu //tratoliště krve//, kde jedním z členů kolokace je málo frekventované slovo.
-  * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti 173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.+  * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti 205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.
  
-[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice}}]+[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice FIXME}}]
  
 === Změna nastavení hodnot === === Změna nastavení hodnot ===
Řádek 112: Řádek 112:
  
 ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^ ^ míra / kolokáty ^ logDice ^ T-score ^ MI-score ^
-^ 1. kolokát | žilách | . | bezpříspěvkového  +^ 1. kolokát | žilách | . | nesrážlivé 
-^ 2. kolokát | promile | , | prolitou |  +^ 2. kolokát | tekla | , | podlitých |  
-^ 3. kolokát | alkoholu | a | okysličené |  +^ 3. kolokát | teče | a | podlitý |  
-^ 4. kolokát | tekla | v | pupečníkové |  +^ 4. kolokát | cukru | v | odkysličená |  
- +^ 5. kolokát | hladinu | se | zbrocených |  
 +^ 6. kolokát | krev | z | prolitou | 
 ===== Využití kolokačních profilů ===== ===== Využití kolokačních profilů =====