Differences

This shows you the differences between two versions of the page.

--- en:manualy:kontext:kolokace [2016/06/14 10:50] – [Menu: Kolokace] kristinavalentinyova
+++ en:manualy:kontext:kolokace [2018/08/06 10:59] (current) – [Collocation list] michalskrabal
@@ Line 1: / Line 1: @@
 ====== Menu: Collocation ======
-[{{ :manualy:kontext:kolokace-form.png?direct&300|Form for specification of analysis of collocation candidates }}]
+[{{ :en:manualy:kontext:kolokace-form.png?direct&300|Form for specification of analysis of collocation candidates }}]
-Jednou ze stěžejních vlastností [[manualy:kontext:index|rozhraní KonText]] je možnost identifikovat pomocí statistických metod [[pojmy:kolokace|kolokace]] k vyhledanému slovu. Kolokací se přitom rozumí smysluplné, ustálené, syntagmatické spojení dvou (nebo víc) slov v blízkém kontextu. Kolokace je tvořena základovým slovem (**node**, většinou se jedná o [[pojmy:kwic|KWIC]]) a kontextovým slovem (**kolokátem**). Seznam kolokátů, s kterými se hledané slovo nebo slovní spojení pojí, je základem korpusové analýzy, protože umožňuje vysledovat, jaký konktext je pro hledaný jev typický.
+One of the principal properties of [[en:manualy:kontext:index|interface KonText]] is the possibility to use statistical methods to identify [[wp>Collocation|collocations]] of a wanted word. By collocation, we understand a meaningful, fixed, syntagmatic sequence of two (or more) words in the immediate proximity. A collocation consists of a key word (**node** which  usually is also [[en:pojmy:kwic|KWIC]]) and a contextual word (**collocate**). The  list of collocation candidates with which a wanted word or a phrase collocates forms the basis for corpus analysis, as it enables us to determine what kind of context is typical for a wanted phenomenon.
-Pro identifikaci kolokací se používají [[pojmy:asociacni_miry|asociační míry]], v současnosti se v [[manualy:kontext:index|rozhraní KonText]] využívá těchto 8 základních: t-score, MI, MI3, log likelihood, min. citlivost, logDice, MI.log_f, relativní frekvence. Každá z měr je citlivá na jiný typ slovního spojení a každá v některých případech selhává, je proto obecně doporučeníhodné míry kombinovat a porovnávat jejich výstupy. Výsledkem statistické analýzy pomocí asociačních měr je seznam kolokačních **kandidátů**, o jejichž skutečné kolokační platnosti musí rozhodnout až badatel.
+[[en:pojmy:asociacni_miry|Association measures]] are used to identify a collocation. [[en:manualy:kontext:index|Interface KonText]] presently employs the following basic ones: t-score, MI, MI3, log likelihood, min. sensitivity, logDice, MI.log_f, relative frequency. Each of the measures is sensitive to different kinds of phrases and each might not work in some cases. It is therefore recommended to combine the measures and compare their output. The statistical analysis by association measures generates a list of collocation **candidates** and it is up to the researcher to decide whether they really are legitimate collocations.
-Předpokládejme, že jsme v korpusu [[cnk:syn2010|SYN2010]] [[manualy:kontext:novy_dotaz|vytvořili konkordanci]] lemmatu //dřevo//. Po kliknutí na položku Kolokace v menu se zobrazí zadávací formulář kolokační analýzy. V něm je možné specifikovat následující hodnoty hledání kolokací v rámci vytvořené konkordance:
+Suppose that we [[en:manualy:kontext:novy_dotaz|created a concordance]] of lemma //dřevo// in the corpus [[en:cnk:syn2010|SYN2010]]. By clicking on the Collocation item in menu, a form for collocation analysis will appear. In the form it is possible to specify the following values when searching the collocations within the scope of created concordance:
-  - **Atribut**: volba [[pojmy:atributy_pozicni|pozičního atributu]] kolokátu (můžeme hledat lemmata v okolí lemmatu //dřevo//, nebo slovní tvary, nebo jakýkoli jiný z dostupných atributů)
+  - **Attribute**: the selection of [[en:pojmy:atributy_pozicni|positional attribute]] of a collocate (we can search for the surrounding lemmas of the lemma //dřevo//, the words or any other available attributes)
-  - **V rozsahu od - do**: specifikace kontextového okna (v okolí [[pojmy:kwic|KWICu]]), kde budeme kolokáty vyhledávat (záporná čísla označují pozice předcházející KWIC, kladná pozice následující za ním, srov. [[manualy:kontext:frekvencni_distribuce#frekvencni_distribuce_podle_pozicnich_atributu|frekvenční distribuce]])
+  - ** In the range from - to**: specification of the contextual span (in the proximity of [[en:pojmy:kwic|KWIC]]) where the collocates will be searched for (negative numbers indicate the positions preceding KWIC, while the positive ones follow KWIC, cf. [[en:manualy:kontext:frekvencni_distribuce#frekvencni_distribuce_podle_pozicnich_atributu|frequency distribution]]))
-  - **Minimální frekvence v korpusu**: stanovení minimální celkové frekvence jednotky, která může být do seznamu kolokátů zařazena (kolokátem lemmatu //dřevo// se tak v případě stanovení minimální frekvence 5 nemůžou stát jednotky, které se v celém korpusu vyskytují méně než pětkrát)
+  - **Minimum frequency in corpus**: establishes minimum overall frequency of a unit in order to be included in the collocate list (provided that the minimum frequency is set on 5, the collocate of lemma //dřevo// cannot be those items that occur in the whole corpus less than 5 times)
-  - **Minimální frekvence v daném rozsahu**: pokud jsme specifikovali kontextové okno hledání kolokátů od -3 do 3, pak volba minimální frekvence v rozsahu určuje, kolikrát se jednotka musí v okolí KWICu vyskytovat, aby byla zařazena do seznamu kolokátů (při výpočtu asociačních měr budou brány v potaz pouze jednotky, které se v okolí KWICu, v našem případě lemmatu //dřevo//, vyskytují alespoň třikrát)
+  - **Minimum frequency in given range**: provided that we specified the context span for collocate search from -3 to 3, then the minimum frequency in given range option determines how frequently should an item co-occur with KWIC to be included in the collocate list (when calculating the association measures only those items will be taken into consideration which occur at least 3 times in the proximity of KWIC, lemma //dřevo// in our example)
-  - **Zobrazit funkce**: jaké asociační míry budou počítány a vypsány pro každý kolokát, který splňuje podmínky specifikované výše
+  - **Show functions**: which association measures will be calculated and listed for each of the collocates that  the conditions specified above are met
-  - **Setřídit dle**: podle jaké z asociačních měr bude seznam setříděn (podstatné zejména u dlouhých seznamů)
+  - **Sort by**: according to which of the association measures will the list be sorted (especially useful for the long lists)
-===== Výpis kolokátů =====
+===== Collocation list =====
-[{{ :manualy:kontext:kolokace-drevo.png?direct&300|Výpis kolokátů lemmatu //dřevo// }}]
+[{{ :en:manualy:kontext:kolokace-drevo.png?direct&300|Collocation list of the lemma //dřevo// }}]
-Pro lemma //dřevo// bylo na základě zadaných specifikací nalezeno celkem 2386 různých slovních tvarů (atribut [[pojmy:word|word]]), které můžou fungovat jako jeho kolokáty. Při setřídění podle [[pojmy:logdice|logDice]] se jako nejvýznamnější kolokační kandidáti ukazují tvary: //tvrdého, bázi, kus, kusy, dubového...//
+Based on the submitted specifications, lemma //dřevo// co-occurs with 2386 different words (attribute [[en:pojmy:word|word]]) which can function as its collocates. Sorting by [[en:pojmy:logdice|logDice]] produces a list  with the following forms as the most significant collocate candidates: //tvrdého, bázi, kus, kusy, dubového...//
-V seznamu najdeme pro každou jednotku jednak celkovou frekvenci souvýskytu vyhledaného jevu a jeho kolokátu (např. lemmatu //dřevo// a kolokátu //tvrdého//) a jednak hodnoty vybraných asociačních měr pro takovéto spojení. Při kliknutí na záhlaví tabulky je možné seznam přetřídit podle zvolené veličiny. Stejně jako ve výpisu [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] je i v seznamu kolokátů možné pomocí odkazů **p/n** vytvořit pozitivní nebo negativní filtr, který hledá kolokát v okolí původního KWICu.
+The list comprises of both the overall frequency of co-occurrence of the wanted phenomenon and its collocate (e.g. of lemma //dřevo// and collocate //tvrdého//) and the values of selected association measures for that collocation. By clicking on the column header, the list will be rearranged according to the selected value. Just like in the list of [[en:manualy:kontext:frekvencni_distribuce|frequency distribution]], it is possible to create positive or negative filter with the link **p/n** in the collocate list which searches for the collocate in the proximity of the initial KWIC.
-Na místě je dvojí upozornění:
+Two precautions must be mentioned here:
-  - V seznamu kolokátů se zobrazují všechna slova, která odpovídají specifikacím kontextového okna a minimální frekvence v korpusu a v rozsahu, bez ohledu na to, zda se skutečně o kolokát jedná či ne. Asociační míry slouží pouze k setřídění všech jednotek splňujících zadaná kritéria – to, jestli dané slovo skutečně funguje v kolokaci s vyhledaným jevem (jestli s ním např. tvoří syntagma), je otázka dalšího zkoumání, která nemůže být rozhodnuta čistě na základě hodnoty asociační míry (ta funguje spíše jako pomůcka pro odfiltrování nezajímavých a statisticky nevýznamných kolokátů na konec seznamu)
-  - Každá [[pojmy:asociacni_miry|asociační míra]] je citlivá na jiný druh kolokací; je proto vhodné kolokační seznam procházet opakovaně po setřídění dle různých asociačních měr
+  - The collocate list includes all of the words which correspond to the specifications of the context span, minimum frequency in the corpus and range, regardless of whether they really are collocates or not. Association measures can be used only to rearrange all of the items that meet the given criteria - whether the given word really functions in the collocation with the wanted phenomenon (whether it forms e.g. syntagma with it) forms the basis for further research which cannot be judged based only on the value of association measure (which functions rather as an aid for filtering out tedious and statistically insignificant collocates to the end of the list)
+  - Each of the [[en:pojmy:asociacni_miry|association measures]] is sensitive to different kinds of collocation. It is therefore necessary to go through the collocation list more than once, using different kinds of association measures to rearrange it.
@@ Line 35: / Line 35: @@
 <WRAP center round box 48%>
-**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:subkorpus|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvencni_distribuce|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[moznosti_zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]]
+**[[en:manualy:kontext:index|Menu]]**: [[en:manualy:kontext:novy_dotaz|Query]] • [[en:manualy:kontext:korpusy|Corpora]] • [[en:manualy:kontext:ulozit|Save]] • [[en:manualy:kontext:konkordance|concordance]] • [[en:manualy:kontext:filtr|Filter]] • [[en:manualy:kontext:frekvence|Frequency]] • [[[[en:manualy:kontext:kolokace|Collocation]] • [[en:manualy:kontext:zobrazeni|View]] • [[en:manualy:kontext:napoveda|Help]]
 </WRAP>

Trace:

Differences

Search

Navigation

Print/export

Tools

Languages

Licence