AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_kolokaci [2016/09/26 17:36] – [Filtrování konkordance] jankocekkurz:hledani_kolokaci [2018/08/08 11:22] – [6. lekce: Kolokace a frazémy] michalskrabal
Řádek 3: Řádek 3:
 V minulých lekcích jsme se zaměřovali na [[kurz:vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:kolokace|kolokace]]. V minulých lekcích jsme se zaměřovali na [[kurz:vyhodnoceni_dotazu|vyhodnocování dotazů]], jejich ukládání a v posledních dvou lekcích jsme si osvojili pokročilejší dotazování pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]]. Všechny tyto dovednosti zúročíme v této lekci, kde se soustředíme na **smysluplné ustálené souvýskyty slov** – [[pojmy:kolokace|kolokace]].
  
-Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, mezi něž patří slovní spojení jako //čokoládový dort, zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:+Ve vymezení pojmu kolokace nepanuje obecná shoda, a to i přesto, že se jedná o jeden z hlavních předmětů zájmu korpusové lingvistiky. Názory se různí především v tom, co všechno mezi kolokace patří. Je tedy výhodné rozlišovat mezi **kolokacemi v užším smyslu**, někdy označovanými jako **běžné kolokace**, kam patří slovní spojení jako //čokoládový dort////zavrtět hlavou// nebo //od rána do večera//, a mezi **kolokacemi v širším smyslu**, které zahrnují následující typy:
  
-  * běžné kolokace (//letní šaty, vejce naměkko//+  * běžné kolokace (//letní šaty////vejce naměkko//
-  * frazémy a idiomy (//ležet ladem, růžové brýle//)  +  * frazémy a idiomy (//ležet ladem////růžové brýle//)  
-  * víceslovné termíny (//infarkt myokardu, červí díra//) +  * víceslovné termíny (//infarkt myokardu////červí díra//) 
-  * víceslovná vlastní jména (//Andělská Hora, Kostelec nad Černými Lesy//)+  * víceslovná vlastní jména (//Andělská Hora////Kostelec nad Černými Lesy//)
  
-Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**, jako jsou //růžové šaty, ležet odpoledne, nové brýle, pozorovat vrabce// apod.  +Kolokace jako **smysluplná ustálená slovní spojení** se vymezují v opozici k **volným syntagmatickým spojením**, jako jsou //růžové šaty////ležet odpoledne////nové brýle////pozorovat vrabce// apod.  
  
  
Řádek 103: Řádek 103:
   * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti 173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.   * Jakýmsi kompromisem je míra [[pojmy:logdice|logDice]] (2. sloupec), která více zohledňuje jak frekvenci, tak nenáhodnost souvýskytu obou výrazů. Vidět to je na již zmíněné specifické kolokaci //tratoliště krve//, kterou logDice neupozaďuje tolik jako T-score, ale uvádí ji na 66. místě (oproti 173. místu u T-score) -- takto nízké umístění zajímavé kolokace může lehce ujít badatelově pozornosti. Výsledky této kompromisní míry je proto výhodné doplnit výsledky měr ostatních, především MI-score.
  
-[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice FIXME PROČ 3141 (1 STR.) STRAN JE 79}}]+[{{:kurz:krev_kolokace_lemmata.png?400|Kolokace lemmatu //krev// setříděné podle míry logDice}}]
  
 === Změna nastavení hodnot === === Změna nastavení hodnot ===
Řádek 153: Řádek 153:
  
 <WRAP round help 60%> <WRAP round help 60%>
-   * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v [[cnk:oral2013|ORAL2013]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. +   * Nejprve si procvičíme filtrování, tentokrát pomocí negativního filtru. O slově //tratoliště// se běžně tvrdí, že je tzv. [[pojmy:monokolokabilita|monokolokabilní]], tedy spojitelné jen s velmi omezeným počtem lexémů. Prověřte na korpusových datech, zda je tomu skutečně tak -- hledejte pravostranné kolokáty tohoto lemmatu v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] a také v korpusu [[cnk:oral|ORAL (v1)]] a odfiltrujte výskyty slovního spojení //tratoliště krve//. Podívejte se, v jakých typech textů se zbylé případy objevují. 
    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.    * Adverbia //nyní// a //teď// jsou chápána jako synonymní. Pak by ale měla vstupovat do kolokací s víceméně stejnými lexémy, že? Porovnejte kolokační profily obou slov v SYN2015: rozsah nastavte **od -3 do 3**, atribut na **lc** (zajímají nás slovní tvary nehledě na velikost písmen) a orientujte se primárně podle [[pojmy:asociacni_miry#dice_a_logdice|asociační míry logDice]] a pokuste se na jejich základě interpretovat případné rozdíly.