Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:hledani_kolokaci [2018/08/08 11:59] – [Asociační míry] vaclavcvrcek | kurz:hledani_kolokaci [2021/04/13 09:04] (aktuální) – [Vyzkoušejte si na závěr] michalskrabal |
---|
Funkce **meet** umožňuje vyhledat dvě slova ([[pojmy:kwic|KWIC]] a jeho kolokát) v určité vzdálenosti (bez ohledu na jejich pořadí). Syntax tohoto příkazu je následující: ''%%(meet KWIC KOLOKÁT OD DO)%%'' | Funkce **meet** umožňuje vyhledat dvě slova ([[pojmy:kwic|KWIC]] a jeho kolokát) v určité vzdálenosti (bez ohledu na jejich pořadí). Syntax tohoto příkazu je následující: ''%%(meet KWIC KOLOKÁT OD DO)%%'' |
| |
Např. dotaz ''%%(meet [lemma="prát"][lemma="prádlo"] -3 3)%%'' vyhledá [[pojmy:lemma|lemma]] //prát// a v jeho okolí – až tři pozice vlevo a až tři pozice vpravo – lemma //prádlo//. V [[cnk:syn2015|SYN2015]] najdeme takových výskytů přesně [[https://kontext.korpus.cz/view?q=~7mI1u19C&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|141]]. | Např. dotaz ''%%(meet [lemma="prát"][lemma="prádlo"] -3 3)%%'' vyhledá [[pojmy:lemma|lemma]] //prát// a v jeho okolí – až tři pozice vlevo a až tři pozice vpravo – lemma //prádlo//. V [[cnk:syn2020|SYN2020]] najdeme takových výskytů přesně [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~PUwkyAoA6KOE|141]] (což je mimochodem úplně stejný počet jako v předchozím [[https://kontext.korpus.cz/view?q=~7mI1u19C&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=wor)pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|SYN2015]]). |
| |
<wrap lo> | |
Každý dotaz typu meet lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''%%([lemma="prát"][]{0,2}[lemma="prádlo"])|([lemma="prádlo"][]{0,2}[lemma="prát"])%%''. Ačkoli oba dotazy identifikují stejnou množinu konkordancí, budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu meet to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi. | Každý dotaz typu meet lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''%%([lemma="prát"][]{0,2}[lemma="prádlo"])|([lemma="prádlo"][]{0,2}[lemma="prát"])%%''. Ačkoli oba dotazy identifikují stejnou množinu konkordancí, budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu meet to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi. |
</wrap> | |
| |
Funkce **union** pomáhá slučovat dotazy typů meet. Její syntax je takováto: ''(union (meet...) (meet...))''. | Funkce **union** pomáhá slučovat dotazy typů meet. Její syntax je takováto: ''(union (meet...) (meet...))''. |
| |
Dotaz ''%%(union (meet [lemma="prát"][lemma="prádlo"] -3 3) (meet [lemma="mýt"][lemma="nádobí"] -3 3))%%'' vyhodnotí nejprve oba dotazy s příkazem meet a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //prádlo//, a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //nádobí//. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://kontext.korpus.cz/view?q=~a0WNhXzd&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|319]]. | Dotaz ''%%(union (meet [lemma="prát"][lemma="prádlo"] -3 3) (meet [lemma="mýt"][lemma="nádobí"] -3 3))%%'' vyhodnotí nejprve oba dotazy s příkazem meet a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //prádlo//, a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //nádobí//. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2020 je [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~UwyCeIQ6i6ey|321]]. |
| |
Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability, pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). | Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability, pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). |
Kolokace lze identifikovat také pomocí [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] a filtrů. Filtry jsme dosud nepoužívali, proto nejprve několik slov obecně k nim. | Kolokace lze identifikovat také pomocí [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] a filtrů. Filtry jsme dosud nepoužívali, proto nejprve několik slov obecně k nim. |
| |
[{{ :manualy:kontext:filtr.png|Formulář pro filtr konkordance}}] | [{{ :manualy:kontext:filtr.png?direct&450|Formulář pro filtr konkordance }}] |
| |
Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány. | Každý dotaz – poté, co ho vyhodnotíme a získáme [[pojmy:konkordance|konkordanci]] – lze dodatečně filtrovat. K dispozici máme dva typy filtrů: **p** (pozitivní) a **n** (negativní). V obou případech jsme při filtrování vyzváni k tomu, abychom zadali dodatečnou podmínku (ve stejné formě, jako zadáváme dotaz); při p-filtru jsou ponechány v konkordanci pouze ty doklady, které této podmínce vyhovují, v případě n-filtru jsou naopak ty doklady, které jí vyhovují, z konkordance smazány. |
| |
Oba typy filtrů najdeme v menu **[[manualy:kontext:filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:syn2015|SYN2015]] celkem [[https://kontext.korpus.cz/view?q=~6VS0mBEr&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|12 321]] výskytů. Pokud nás zajímají adjektivní přívlastky, které tomuto lemmatu předcházejí, můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru vyplníme tyto údaje: | Oba typy filtrů najdeme v menu **[[manualy:kontext:filtr|Filtr → Pozitivní]]** či **Filtr → Negativní**. Jejich využití pro hledání kolokací si můžeme ukázat na příkladu lemmatu //kolega//, které má v [[cnk:syn2020|SYN2020]] celkem [[https://kontext.korpus.cz/view?q=~6VS0mBEr&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|13 375]] výskytů. Pokud nás zajímají adjektivní přívlastky, které tomuto lemmatu předcházejí, můžeme použít pozitivní filtr, jímž konkordanci zúžíme pouze na ty případy, které našemu záměru vyhovují. Do zadání pozitivního filtru (přes horní menu) vyplníme tyto údaje: |
| |
Filtr: **pozitivní** (chceme ponechat příklady s předcházejícím adjektivem)\\ | Typ dotazu: přepnout přepínač **Pokročílý dotaz**\\ |
Rozsah: od **-1** do **-1** (jde nám pouze o bezprostředně předcházející pozici)\\ | Dotaz: ''%%[pos="A"]%%'' (hledá všechna adjektiva na dané pozici, viz atribut [[pojmy:pos|pos]])\\ |
Typ dotazu: **CQL**\\ | Rozsah hledání (v Upřesnit parametry): od **-1** do **-1** (jde nám pouze o bezprostředně předcházející pozici)\\ |
Dotaz: ''%%[pos="A"]%%'' (hledá všechna adjektiva na dané pozici, viz atribut [[pojmy:pos|pos]]) | Zbylé možnosti necháme, jak jsou. |
| |
Výsledkem je konkordance, která obsahuje [[https://kontext.korpus.cz/view?q=~4T4SSHFn&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|3275]] výskytů lemmatu //kolega//, kterému poředchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek, ve většině případů tomu tak je (můžeme si to ověřit na [[kurz:vytvareni_vzorku|vzorku]]). | Výsledkem je konkordance, která obsahuje [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~dUEUkKYwwOKm|3174]] výskytů lemmatu //kolega//, kterému předchází adjektivum. Ačkoli není zaručeno, že se bude jednat o shodný přívlastek, ve většině případů tomu tak je (můžeme si to ověřit na [[kurz:vytvareni_vzorku|vzorku]]). |
| |
Konečné vyhodnocení provedeme pomocí frekvenční distribuce **Frekvence → Vlastní** – zkoumat budeme první předcházející pozici (1L), a to na základě lemmatu. Ve výsledku bychom měli objevit následující slova: | Konečné vyhodnocení provedeme pomocí frekvenční distribuce **Frekvence → Vlastní** – zkoumat budeme první předcházející pozici (1L), a to na základě lemmatu. Ve výsledku bychom měli objevit následující slova: |
| |
^ Lemma ^ Frekvence ^ | ^ Lemma ^ Frekvence ^ |
| bývalý | 178 | | | bývalý | 213 | |
| mladý | 173 | | | mladý | 191 | |
| starý | 156 | | | starý | 137 | |
| stranický | 145 | | | další | 118 | |
| týmový | 122 | | | týmový | 97 | |
| další | 103 | | | stranický | 96 | |
| německý | 70 | | | nový | 92 | |
| nový | 64 | | | ostatní | 73 | |
| herecký | 64 | | | německý | 64 | |
| zahraniční | 62 | | | slovenský | 62 | |
| |
Tento seznam může sloužit jako výchozí bod pro úvahy o tom, co je, či není (ustálená) kolokace s komponentem //kolega//. | Tento seznam může sloužit jako výchozí bod pro úvahy o tom, co je, či není (ustálená) kolokace s komponentem //kolega//. |
Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:kwic|KWICu]], které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). | Pro výpočet asociačních měr je důležité tzv. okno, z něhož se vychází (tj. počet pozic napravo a nalevo od [[pojmy:kwic|KWICu]], které jsou považovány za potenciální kolokáty). Pro většinu výzkumů doporučujeme okno v rozmezí pozic -3 až +3 od KWICu. Podle povahy výzkumné otázky je možné -- a mnohdy i žádoucí -- toto nastavení změnit, např. pokud vyhledáváme pouze přívlastky určitého substantiva (jako v případě uvedeném výše), vhodné okno bude mít rozmezí -1 až -1 (tedy pouze první pozice vlevo od daného substantiva). |
| |
[{{:kurz:kolokace-formular-default.png?direct&450|Výchozí nastavení formuláře pro identifikaci kolokací FIXME}}] | [{{:kurz:kolokace-formular-default.png?direct&300|Výchozí nastavení formuláře pro identifikaci kolokací }}] |
| |
=== Příklad: Rozdíly v kolokátech podle měr === | === Příklad: Rozdíly v kolokátech podle měr === |
* Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti 205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score. | * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 92. místě (oproti 205. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score. |
| |
[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice FIXME}}] | [{{:kurz:krev_kolokace_lemmata.png?direct&400|Kolokace lemmatu //krev// setříděné podle míry logDice }}] |
| |
=== Změna nastavení hodnot === | === Změna nastavení hodnot === |
V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré <fc #6495ed>**p**</fc> na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu nejen v publicistice (//Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//). | V tabulce je naznačeno, jakým způsobem můžeme seznam kolokátů rozkategorizovat při prvním pohledu. Analýza výsledků poskytnutých kolokačními seznamy se však nikdy neobejde bez manuální kontroly. U nejednoho kolokátu z automaticky vytvořeného seznamu je třeba nahlížet do konkrétních kontextů, a to kliknutím na modré <fc #6495ed>**p**</fc> na začátku řádku seznamu, označující pozitivní filtr. Snadno se ukáže, že např. kolokace //pravice// + //levice// může odkazovat k politickému uskupení, a to kupodivu nejen v publicistice (//Nezajímalo nás, jestli patří k pravici nebo levici, jestli je křesťan nebo ateista...//), ale stejně tak najdeme hodně dokladů doslovného užití (//Bezvýhradně důvěřujete člověku po levici i po pravici, protože na nich závisí váš život...//). |
| |
Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z kolokační analýzy? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//. | ==== Frazémy ==== |
| |
| Vedle běžných kolokací odhalují asociační míry ještě další typ ustáleného souvýskytu, a sice [[pojmy:frazem|frazémy]]. Pro jednoduchost si vezměme často zkoumané somatické frazémy, např. ty obsahující slovo //srdce//. Co se dozvíme z [[https://www.korpus.cz/kontext/collx?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~gGsc0ewqO0mG&cattr=lc&cfromw=-3&ctow=3&cminfreq=3&cminbgr=3&cbgrfns=m&cbgrfns=t&cbgrfns=d&csortfn=m&collpage=1|kolokační analýzy]]? Z hlediska frazeologie se jeví nejužitečnější třídit výsledky podle MI-score, přínosné též bývá zachování konkrétních tvarů: vyjeví se tak kupříkladu rozdíl v četnosti pozitivních a negativních tvarů (//ne/přirůst k srdci//) i možná preference týkající se kategorie času – typickým příkladem realizace tohoto frazému budiž věta //To mi k srdci nepřirostlo//. |
| |
| |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
* Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v korpusu [[cnk:oral|ORAL v1]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. | * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]] a také v korpusu [[cnk:oral|ORAL v1]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. |
* Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly. | * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly. |
| |