AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manualy:kontext:kolokace [2015/10/01 18:13] – Zapati vaclavcvrcekmanualy:kontext:kolokace [2018/11/05 23:20] (aktuální) – [Menu: Kolokace] michalskrabal
Řádek 1: Řádek 1:
 ====== Menu: Kolokace ====== ====== Menu: Kolokace ======
- 
-Jednou ze stěžejních vlastností [[manualy:kontext:index|rozhraní KonText]] je možnost identifikovat pomocí statistických metod [[pojmy:kolokace|kolokace]] k vyhledanému slovu. Kolokací se přitom rozumí smysluplné, ustálené, syntagmatické spojení dvou (nebo víc) slov v blízkém kontextu. Kolokace je tvořena základovým slovem (**node**, většinou se jedná o [[pojmy:kwic|KWIC]]) a kontextovým slovem (**kolokátem**). Seznam kolokátů, s kterými se hledané slovo nebo slovní spojení pojí, je základem korpusové analýzy, protože umožňuje vysledovat, jaký konktext je pro hledaný jev typický. 
  
 [{{ :manualy:kontext:kolokace-form.png?direct&300|Formulář pro specifikaci analýzy kolokací }}] [{{ :manualy:kontext:kolokace-form.png?direct&300|Formulář pro specifikaci analýzy kolokací }}]
  
-Pro identifikaci kolokací se používají [[pojmy:asociacni_miry|asociační míry]], v současnosti se [[manualy:kontext:index|rozhraní KonText]] využívá těchto 8 základních: t-score, MI, MI3, log likelihood, mincitlivostlogDice, MI.log_f, relativní frekvence. Každá z měr je citlivá na jiný typ slovního spojení a každá v některých případech selhává, je proto obecně doporučeníhodné míry kombinovat a porovnávat jejich výstupy. Výsledkem statistické analýzy pomocí asociačních měr je seznam kolokačních **kandidátů**o jejichž skutečné kolokační platnosti musí rozhodnout až badatel.+Jednou ze stěžejních vlastností rozhraní KonText je možnost identifikovat pomocí statistických metod [[pojmy:kolokace|kolokace]] k vyhledanému slovu. Kolokací se přitom rozumí smysluplnéustálené, syntagmatické spojení dvou (nebo víc) slov blízkém kontextu. Kolokace je tvořena základovým slovem (**node**, většinou se jedná o [[pojmy:kwic|KWIC]]) a kontextovým slovem (**kolokátem**)Seznam kolokátůs kterými se hledané slovo nebo slovní spojení pojí, je základem korpusové analýzy, protože umožňuje vysledovat, jaký kontext je pro hledaný jev typický
  
-Předpokládejme, že jsme v korpusu [[cnk:syn2010|SYN2010]] [[manualy:kontext:novy_dotaz|vytvořili konkordanci]] lemmatu //dřevo//. Po kliknutí na položku Kolokace v menu se zobrazí zadávací formulář kolokační analýzy. V něm je možné specifikovat následující hodnoty hledání kolokací v rámci vytvořené konkordance: 
  
-  - **Atribut**: volba [[pojmy:atributy_pozicni|pozičního atributu]] kolokátu (můžeme hledat lemmata v okolí lemmatu //dřevo//, nebo slovní tvary, nebo jakýkoli jiný z dostupných atributů) +Pro identifikaci kolokací se používají [[pojmy:asociacni_miry|asociační míry]], v současnosti se v rozhraní KonText využívá těchto 8 základních: t-score, MI, MI3, log likelihood, min. citlivost, logDice, MI.log_f a relativní frekvence. Každá z měr je citlivá na jiný typ slovního spojení a každá v některých případech selhává, je proto obecně doporučeníhodné míry kombinovat a porovnávat jejich výstupy. Výsledkem statistické analýzy pomocí asociačních měr je seznam kolokačních **kandidátů**, o jejichž skutečné kolokační platnosti musí rozhodnout až badatel. 
-  - **V rozsahu od - do**: specifikace kontextového okna (v okolí [[pojmy:kwic|KWICu]]), kde budeme kolokáty vyhledávat (záporná čísla označují pozice předcházející KWIC, kladná pozice následující za ním, srov. [[manualy:kontext:frekvencni_distribuce#frekvencni_distribuce_podle_pozicnich_atributu|frekvenční distribuce]]) + 
-  - **Minimální frekvence v korpusu**: stanovení minimální celkové frekvence jednotky, která může být do seznamu kolokátů zařazena (kolokátem lemmatu //dřevo// se tak v případě stanovení minimální frekvence 5 nemůžou stát jednotky, které se v celém korpusu vyskytují méně než pětkrát) +Předpokládejme, že jsme v korpusu [[cnk:syn2015|SYN2015]] vytvořili konkordanci lemmatu //dřevo//. Po kliknutí na položku **Kolokace → Vlastní** (lze využít též klávesovou zkratku ''Shift'' + ''C'') v menu se zobrazí zadávací formulář kolokační analýzy. V něm je možné specifikovat následující hodnoty hledání kolokací v rámci vytvořené konkordance: 
-  - **Minimální frekvence v daném rozsahu**: pokud jsme specifikovali kontextové okno hledání kolokátů od -3 do 3, pak volba minimální frekvence v rozsahu určuje, kolikrát se jednotka musí v okolí KWICu vyskytovat, aby byla zařazena do seznamu kolokátů (při výpočtu asociačních měr budou brány v potaz pouze jednotky, které se v okolí KWICu, v našem případě lemmatu //dřevo//, vyskytují alespoň třikrát+ 
-  - **Zobrazit funkce**: jaké asociační míry budou počítány a vypsány pro každý kolokát, který splňuje podmínky specifikované výše +  - **Atribut**: volba [[pojmy:atributy_pozicni|pozičního atributu]] kolokátu (můžeme hledat lemmata v okolí lemmatu //dřevo//, nebo slovní tvary, popř. jakýkoli jiný z dostupných atributů) 
-  - **Setřídit dle**: podle jaké z asociačních měr bude seznam setříděn (podstatné zejména u dlouhých seznamů)+  - **V kontextu**: specifikace kontextového okna (v okolí [[pojmy:kwic|KWIC]]u), kde budeme kolokáty vyhledávat (záporná čísla označují pozice předcházející KWIC, kladná pozice následující za ním, srov. [[manualy:kontext:frekvence#frekvencni_distribuce_podle_pozicnich_atributu|frekvenční distribuce]]) 
 +  - **Minimální frekvence kolokátu v korpusu**: stanovení minimální celkové frekvence jednotky, která může být do seznamu kolokátů zařazena (kolokátem lemmatu //dřevo// se tak v případě stanovení minimální frekvence 5 nemůžou stát jednotky, které se v celém korpusu vyskytují méně než pětkrát) 
 +  - **Minimální frekvence kolokátu kontextu**: pokud jsme specifikovali kontextové okno hledání kolokátů od -3 do 3, pak volba minimální frekvence v rozsahu určuje, kolikrát se jednotka musí v okolí KWICu vyskytovat, aby byla zařazena do seznamu kolokátů (při výpočtu asociačních měr budou brány v potaz pouze jednotky, které se v okolí KWICu, v našem případě lemmatu //dřevo//, vyskytují stejně nebo vícekrát, než je zvolený limit
 +  - **Zobrazit míry**: jaké asociační míry budou počítány a vypsány pro každý kolokát, který splňuje podmínky specifikované výše 
 +  - **Třídit podle**: podle jaké z asociačních měr bude seznam setříděn (faktor podstatný zejména u dlouhých seznamů)
  
 ===== Výpis kolokátů ===== ===== Výpis kolokátů =====
Řádek 20: Řádek 21:
 [{{ :manualy:kontext:kolokace-drevo.png?direct&300|Výpis kolokátů lemmatu //dřevo// }}] [{{ :manualy:kontext:kolokace-drevo.png?direct&300|Výpis kolokátů lemmatu //dřevo// }}]
  
-Pro lemma //dřevo// bylo na základě zadaných specifikací nalezeno celkem 2386 různých slovních tvarů (atribut [[pojmy:word|word]]), které můžou fungovat jako jeho kolokáty. Při setřídění podle [[pojmy:logdice|logDice]] se jako nejvýznamnější kolokační kandidáti ukazují tvary: //tvrdého, bázi, kus, kusy, dubového...//+Při setřídění výpisu podle [[pojmy:logdice|logDice]] od njevyšší hodnoty se jako nejvýznamnější kolokační kandidáti ukazují tyto tvary: //masivního//, //tvrdého////kus////kovu////tmavého//, //dubového//...
  
-V seznamu najdeme pro každou jednotku jednak celkovou frekvenci souvýskytu vyhledaného jevu a jeho kolokátu (např. lemmatu //dřevo// a kolokátu //tvrdého//) a jednak hodnoty vybraných asociačních měr pro takovéto spojení. Při kliknutí na záhlaví tabulky je možné seznam přetřídit podle zvolené veličiny. Stejně jako ve výpisu [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] je i v seznamu kolokátů možné pomocí odkazů **p/n** vytvořit pozitivní nebo negativní filtr, který hledá kolokát v okolí původního KWICu. +V seznamu najdeme pro každou jednotku jednak celkovou frekvenci souvýskytu vyhledaného jevu a jeho kolokátu (např. lemmatu //dřevo// a kolokátu //tvrdého//) a jednak hodnoty vybraných asociačních měr pro takovéto spojení. Při kliknutí na záhlaví tabulky je možné seznam přetřídit podle zvolené veličiny. Stejně jako ve výpisu [[manualy:kontext:frekvence|frekvenční distribuce]] je i v seznamu kolokátů možné pomocí odkazů **p/n** vytvořit pozitivní nebo negativní filtr, který hledá kolokát v okolí původního KWICu.
- +
-Na místě je dvojí upozornění:+
  
 +<WRAP round important 70%>
   - V seznamu kolokátů se zobrazují všechna slova, která odpovídají specifikacím kontextového okna a minimální frekvence v korpusu a v rozsahu, bez ohledu na to, zda se skutečně o kolokát jedná či ne. Asociační míry slouží pouze k setřídění všech jednotek splňujících zadaná kritéria – to, jestli dané slovo skutečně funguje v kolokaci s vyhledaným jevem (jestli s ním např. tvoří syntagma), je otázka dalšího zkoumání, která nemůže být rozhodnuta čistě na základě hodnoty asociační míry (ta funguje spíše jako pomůcka pro odfiltrování nezajímavých a statisticky nevýznamných kolokátů na konec seznamu)   - V seznamu kolokátů se zobrazují všechna slova, která odpovídají specifikacím kontextového okna a minimální frekvence v korpusu a v rozsahu, bez ohledu na to, zda se skutečně o kolokát jedná či ne. Asociační míry slouží pouze k setřídění všech jednotek splňujících zadaná kritéria – to, jestli dané slovo skutečně funguje v kolokaci s vyhledaným jevem (jestli s ním např. tvoří syntagma), je otázka dalšího zkoumání, která nemůže být rozhodnuta čistě na základě hodnoty asociační míry (ta funguje spíše jako pomůcka pro odfiltrování nezajímavých a statisticky nevýznamných kolokátů na konec seznamu)
   - Každá [[pojmy:asociacni_miry|asociační míra]] je citlivá na jiný druh kolokací; je proto vhodné kolokační seznam procházet opakovaně po setřídění dle různých asociačních měr   - Každá [[pojmy:asociacni_miry|asociační míra]] je citlivá na jiný druh kolokací; je proto vhodné kolokační seznam procházet opakovaně po setřídění dle různých asociačních měr
 +</WRAP>
  
  
Řádek 34: Řádek 34:
  
 <WRAP center round box 48%> <WRAP center round box 48%>
-**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:subkorpus|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvencni_distribuce|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[moznosti_zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]]+**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:korpusy|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvence|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]]
 </WRAP> </WRAP>