AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_kolokaci [2018/03/27 14:27] – [Vyzkoušejte si na závěr] michalskrabalkurz:hledani_kolokaci [2018/08/08 11:27] – [Funkce meet a union] michalskrabal
Řádek 3: Řádek 3:
 V minulých lekcích jsme se zaměřovali na [[kurz:vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:kolokace|kolokace]]. V minulých lekcích jsme se zaměřovali na [[kurz:vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:kolokace|kolokace]].
  
-Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, mezi něž patří slovní spojení jako //čokoládový dort, zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:+Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, kam patří slovní spojení jako //čokoládový dort////zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:
  
-  * běžné kolokace (//letní šaty, vejce naměkko//+  * běžné kolokace (//letní šaty////vejce naměkko//
-  * frazémy a idiomy (//ležet ladem, růžové brýle//)  +  * frazémy a idiomy (//ležet ladem////růžové brýle//)  
-  * víceslovné termíny (//infarkt myokardu, červí díra//) +  * víceslovné termíny (//infarkt myokardu////červí díra//) 
-  * víceslovná vlastní jména (//Andělská Hora, Kostelec nad Černými Lesy//)+  * víceslovná vlastní jména (//Andělská Hora////Kostelec nad Černými Lesy//)
  
-Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**, jako jsou //růžové šaty, ležet odpoledne, nové brýle, pozorovat vrabce// apod.  +Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**, jako jsou //růžové šaty////ležet odpoledne////nové brýle////pozorovat vrabce// apod.  
  
  
Řádek 30: Řádek 30:
  
 <wrap lo> <wrap lo>
-Každý dotaz typu **meet** lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''%%([lemma="prát"][]{0,2}[lemma="prádlo"])|([lemma="prádlo"][]{0,2}[lemma="prát"])%%''. Ačkoli oba dotazy identifikují stejnou množinu konkordancí, budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu **meet** to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi.+Každý dotaz typu meet lze zapsat – poněkud komplikovanějším způsobem – i jako běžný CQL dotaz. Výše uvedený příklad je ekvivalentní s dotazem ''%%([lemma="prát"][]{0,2}[lemma="prádlo"])|([lemma="prádlo"][]{0,2}[lemma="prát"])%%''. Ačkoli oba dotazy identifikují stejnou množinu konkordancí, budou se lišit tím, co je jejich KWIC; v případě dotazu s pomocí příkazu meet to bude pouze první slovo, v případě CQL dotazu to bude celá sekvence od prvního slova k jeho kolokátu včetně všech slov, která se nacházejí mezi nimi.
 </wrap> </wrap>
  
-Funkce **union** pomáhá slučovat dotazy typů **meet**. Její syntax je takováto: ''(union (meet...) (meet...))''.+Funkce **union** pomáhá slučovat dotazy typů meet. Její syntax je takováto: ''(union (meet...) (meet...))''.
  
-Dotaz ''%%(union (meet [lemma="prát"][lemma="prádlo"] -3 3) (meet [lemma="mýt"][lemma="nádobí"] -3 3))%%'' vyhodnotí nejprve oba dotazy typu **meet** a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //prádlo//, a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //nádobí//. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://kontext.korpus.cz/view?q=~a0WNhXzd&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|319]].+Dotaz ''%%(union (meet [lemma="prát"][lemma="prádlo"] -3 3) (meet [lemma="mýt"][lemma="nádobí"] -3 3))%%'' vyhodnotí nejprve oba dotazy s příkazem meet a ty pak sloučí do jedné konkordance. Ve výsledku jsou v ní tak obsažené ty výskyty lemmatu //prát//, které mají v kontextu lemma //prádlo//, a ty výskyty lemmatu //mýt//, v jejichž okolí najdeme lemma //nádobí//. KWICem v konkordanci jsou pouze lemmata //prát// a //mýt//. Celkový počet výskytů pro tento dotaz v korpusu SYN2015 je [[https://kontext.korpus.cz/view?q=~a0WNhXzd&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|319]].
  
 Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability, pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.).  Pomocí těchto dotazů lze zjišťovat nejen frekvenci kolokací, ale také míru jejich variability, pokud nějakou připouštějí (např. rozvíjející přívlastky a jiná vložená slova, slovosledné transformace apod.).