Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
manualy:kontext:kolokace [2018/08/03 17:20] – vaclavcvrcek | manualy:kontext:kolokace [2018/11/05 23:20] (aktuální) – [Menu: Kolokace] michalskrabal |
---|
====== Menu: Kolokace ====== | ====== Menu: Kolokace ====== |
| |
[{{ :manualy:kontext:kolokace-form.png?direct&300|Formulář pro specifikaci analýzy kolokací FIXME}}] | [{{ :manualy:kontext:kolokace-form.png?direct&300|Formulář pro specifikaci analýzy kolokací }}] |
| |
Jednou ze stěžejních vlastností rozhraní KonText je možnost identifikovat pomocí statistických metod [[pojmy:kolokace|kolokace]] k vyhledanému slovu. Kolokací se přitom rozumí smysluplné, ustálené, syntagmatické spojení dvou (nebo víc) slov v blízkém kontextu. Kolokace je tvořena základovým slovem (**node**, většinou se jedná o [[pojmy:kwic|KWIC]]) a kontextovým slovem (**kolokátem**). Seznam kolokátů, s kterými se hledané slovo nebo slovní spojení pojí, je základem korpusové analýzy, protože umožňuje vysledovat, jaký kontext je pro hledaný jev typický. | Jednou ze stěžejních vlastností rozhraní KonText je možnost identifikovat pomocí statistických metod [[pojmy:kolokace|kolokace]] k vyhledanému slovu. Kolokací se přitom rozumí smysluplné, ustálené, syntagmatické spojení dvou (nebo víc) slov v blízkém kontextu. Kolokace je tvořena základovým slovem (**node**, většinou se jedná o [[pojmy:kwic|KWIC]]) a kontextovým slovem (**kolokátem**). Seznam kolokátů, s kterými se hledané slovo nebo slovní spojení pojí, je základem korpusové analýzy, protože umožňuje vysledovat, jaký kontext je pro hledaný jev typický. |
Pro identifikaci kolokací se používají [[pojmy:asociacni_miry|asociační míry]], v současnosti se v rozhraní KonText využívá těchto 8 základních: t-score, MI, MI3, log likelihood, min. citlivost, logDice, MI.log_f a relativní frekvence. Každá z měr je citlivá na jiný typ slovního spojení a každá v některých případech selhává, je proto obecně doporučeníhodné míry kombinovat a porovnávat jejich výstupy. Výsledkem statistické analýzy pomocí asociačních měr je seznam kolokačních **kandidátů**, o jejichž skutečné kolokační platnosti musí rozhodnout až badatel. | Pro identifikaci kolokací se používají [[pojmy:asociacni_miry|asociační míry]], v současnosti se v rozhraní KonText využívá těchto 8 základních: t-score, MI, MI3, log likelihood, min. citlivost, logDice, MI.log_f a relativní frekvence. Každá z měr je citlivá na jiný typ slovního spojení a každá v některých případech selhává, je proto obecně doporučeníhodné míry kombinovat a porovnávat jejich výstupy. Výsledkem statistické analýzy pomocí asociačních měr je seznam kolokačních **kandidátů**, o jejichž skutečné kolokační platnosti musí rozhodnout až badatel. |
| |
Předpokládejme, že jsme v korpusu [[cnk:syn2015|SYN2015]] vytvořili konkordanci lemmatu //dřevo//. Po kliknutí na položku **Kolokace → Vlastní** v menu se zobrazí zadávací formulář kolokační analýzy. V něm je možné specifikovat následující hodnoty hledání kolokací v rámci vytvořené konkordance: | Předpokládejme, že jsme v korpusu [[cnk:syn2015|SYN2015]] vytvořili konkordanci lemmatu //dřevo//. Po kliknutí na položku **Kolokace → Vlastní** (lze využít též klávesovou zkratku ''Shift'' + ''C'') v menu se zobrazí zadávací formulář kolokační analýzy. V něm je možné specifikovat následující hodnoty hledání kolokací v rámci vytvořené konkordance: |
| |
- **Atribut**: volba [[pojmy:atributy_pozicni|pozičního atributu]] kolokátu (můžeme hledat lemmata v okolí lemmatu //dřevo//, nebo slovní tvary, popř. jakýkoli jiný z dostupných atributů) | - **Atribut**: volba [[pojmy:atributy_pozicni|pozičního atributu]] kolokátu (můžeme hledat lemmata v okolí lemmatu //dřevo//, nebo slovní tvary, popř. jakýkoli jiný z dostupných atributů) |
===== Výpis kolokátů ===== | ===== Výpis kolokátů ===== |
| |
[{{ :manualy:kontext:kolokace-drevo.png?direct&300|Výpis kolokátů lemmatu //dřevo// FIXME}}] | [{{ :manualy:kontext:kolokace-drevo.png?direct&300|Výpis kolokátů lemmatu //dřevo// }}] |
| |
Při setřídění výpisu podle [[pojmy:logdice|logDice]] od njevyšší hodnoty se jako nejvýznamnější kolokační kandidáti ukazují tyto tvary: //masivního//, //tvrdého//, //kus//, //kovu//, //tmavého//, //dubového//... | Při setřídění výpisu podle [[pojmy:logdice|logDice]] od njevyšší hodnoty se jako nejvýznamnější kolokační kandidáti ukazují tyto tvary: //masivního//, //tvrdého//, //kus//, //kovu//, //tmavého//, //dubového//... |