Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_kolokaci [2016/09/26 17:36] – [Filtrování konkordance] jankocek | kurz:hledani_kolokaci [2018/08/08 11:27] – [Funkce meet a union] michalskrabal |
---|
V minulých lekcích jsme se zaměřovali na [[kurz:vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:kolokace|kolokace]]. | V minulých lekcích jsme se zaměřovali na [[kurz:vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:kolokace|kolokace]]. |
| |
Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, mezi něž patří slovní spojení jako //čokoládový dort, zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy: | Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, kam patří slovní spojení jako //čokoládový dort//, //zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy: |
| |
* běžné kolokace (//letní šaty, vejce naměkko//) | * běžné kolokace (//letní šaty//, //vejce naměkko//) |
* frazémy a idiomy (//ležet ladem, růžové brýle//) | * frazémy a idiomy (//ležet ladem//, //růžové brýle//) |
* víceslovné termíny (//infarkt myokardu, červí díra//) | * víceslovné termíny (//infarkt myokardu//, //červí díra//) |
* víceslovná vlastní jména (//Andělská Hora, Kostelec nad Černými Lesy//) | * víceslovná vlastní jména (//Andělská Hora//, //Kostelec nad Černými Lesy//) |
| |
Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**, jako jsou //růžové šaty, ležet odpoledne, nové brýle, pozorovat vrabce// apod. | Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**, jako jsou //růžové šaty//, //ležet odpoledne//, //nové brýle//, //pozorovat vrabce// apod. |
| |
| |
| |
<wrap lo> | <wrap lo> |
Každý dotaz typu **meet** lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''%%([lemma="prát"][]{0,2}[lemma="prádlo"])|([lemma="prádlo"][]{0,2}[lemma="prát"])%%''. Ačkoli oba dotazy identifikují stejnou množinu konkordancí, budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu **meet** to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi. | Každý dotaz typu meet lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''%%([lemma="prát"][]{0,2}[lemma="prádlo"])|([lemma="prádlo"][]{0,2}[lemma="prát"])%%''. Ačkoli oba dotazy identifikují stejnou množinu konkordancí, budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu meet to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi. |
</wrap> | </wrap> |
| |
Funkce **union** pomáhá slučovat dotazy typů **meet**. Její syntax je takováto: ''(union (meet...) (meet...))''. | Funkce **union** pomáhá slučovat dotazy typů meet. Její syntax je takováto: ''(union (meet...) (meet...))''. |
| |
Dotaz ''%%(union (meet [lemma="prát"][lemma="prádlo"] -3 3) (meet [lemma="mýt"][lemma="nádobí"] -3 3))%%'' vyhodnotí nejprve oba dotazy typu **meet** a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //prádlo//, a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //nádobí//. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://kontext.korpus.cz/view?q=~a0WNhXzd&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|319]]. | Dotaz ''%%(union (meet [lemma="prát"][lemma="prádlo"] -3 3) (meet [lemma="mýt"][lemma="nádobí"] -3 3))%%'' vyhodnotí nejprve oba dotazy s příkazem meet a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //prádlo//, a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //nádobí//. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://kontext.korpus.cz/view?q=~a0WNhXzd&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|319]]. |
| |
Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability, pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). | Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability, pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.). |
* Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti 173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score. | * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti 173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score. |
| |
[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice FIXME PROČ 3141 (1 STR.) STRAN JE 79}}] | [{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice}}] |
| |
=== Změna nastavení hodnot === | === Změna nastavení hodnot === |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
* Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v [[cnk:oral2013|ORAL2013]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. | * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v korpusu [[cnk:oral|ORAL (v1)]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. |
* Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly. | * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly. |
| |