AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:reseni_ukolu [2016/08/30 13:04] – [Lekce 5] Michal Škrabalkurz:reseni_ukolu [2018/08/08 11:05] – [Lekce 5] Michal Škrabal
Řádek 25: Řádek 25:
 ===== Lekce 3 ===== ===== Lekce 3 =====
  
-  * Podřetězec //pes// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje celkem 15 581krát, frekvenční distribuce lemmat je následující:+  * Část slova //pes// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje celkem 15 581krát (typ dotazu: Část slova). Frekvenční distribuce lemmat (tedy slov, jejichž některý z tvarů obsahuje tuto sekvenci znaků - např. //kapsa//, gen. pl. //kapes//je následující:
  
-[{{:kurz:podretezec_pes.png?nolink&600|FIXME}}]+[{{:kurz:podretezec_pes.png}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 98: Řádek 98:
 ===== Lekce 5 ==== ===== Lekce 5 ====
  
-1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:syn2015|SYN2015]] příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://kontext.korpus.cz/view?q=~yvns3xpG&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 14 výskytů]], z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary).+1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:syn2015|SYN2015]] příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://kontext.korpus.cz/view?q=~yvns3xpG&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 14 výskytů]], z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví mělo stabilnější formu a bylo méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary).
  
-2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí ''[word=%%".*her.*"%%]''((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|podřetězec]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin.  Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]].+2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí ''[word=%%".*her.*"%%]''((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|Část slova]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin.  Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]].
  
 ===== Lekce 6 ===== ===== Lekce 6 =====
Řádek 110: Řádek 110:
 V [[cnk:syn2010|SYN2010]] je situace obdobná: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]]. V [[cnk:syn2010|SYN2010]] je situace obdobná: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]].
  
-korpusech řady ORAL se toto slovo -- s jedinou výjimkou (//tratoliště drobků// v [[cnk:oral2008|ORAL2008]]) -- nevyskytuje (protože jsou mluvené korpusy nelemmatizované, patrně jste hledali slovní tvar ''tratolišt.*''). Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami?+korpusu [[cnk:oral|ORAL (v1)]] se toto slovo -- s jedinou, o to však půvabnější výjimkou, za niž by se nemusel stydět ani Hrabal (// ...eště si ho vodšoupne jako dál a žere a tam prostě pod nim **tratoliště drobků**, a já na něj koukám a řikám Láďo proč si myslíš že sem ti tam dala ten talíř?//) -- nevyskytuje. Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami?
  
-2. Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]].+2. Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_„slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]].
  
 Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu **lc** najdeme jen dva společné: //teprve// a //už//. Synonymní //již// je vyhrazeno skoro výlučně lemmatu //nyní//, což může být důsledek toho, že jak //nyní//, tak //již// mají příznak knižnosti. Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu **lc** najdeme jen dva společné: //teprve// a //už//. Synonymní //již// je vyhrazeno skoro výlučně lemmatu //nyní//, což může být důsledek toho, že jak //nyní//, tak //již// mají příznak knižnosti.
Řádek 140: Řádek 140:
 Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu dotazem na **Lemma** ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.).  Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu dotazem na **Lemma** ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). 
  
-V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (podtrženy jsou případy, jež nás zajímají):+V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (červeně zvýrazněny jsou případy, jež nás zajímají):
 ^ Lemma ^ 2001pub ^ 2011pub ^  ^ Lemma ^ 2001pub ^ 2011pub ^ 
-^ tunel | 233 | 245 |  +^ tunel |  233   245  |  
-__tunelář__ | 29 | 3 | +<fc #ff0000>tunelář</fc>  29    
-__tunelování__ | 25 | 15 | +<fc #ff0000>tunelování</fc>  25   15  
-__vytunelovaný__ | 10 | 6 | +<fc #ff0000>vytunelovaný</fc>  10    
-__vytunelování__ | 9 | 5 | +<fc #ff0000>vytunelování</fc>     
-__vytunelovat__ | 9 | 1 |  +<fc #ff0000>vytunelovat</fc>     |  
-__tunelovat__ | 8 | 4 | +<fc #ff0000>tunelovat</fc>     
-^ tunelový | 8 | 10 |  +^ tunelový |    10  |  
-__tunelovaný__ | 1 | 0 | +<fc #ff0000>tunelovaný</fc>     
-^ tunelovitý | 1 | 0 |  +^ tunelovitý |     |  
-__tuneláž__ | 0 | 1 | +<fc #ff0000>tuneláž</fc>     
-^ nano-tunel | 0 | 1 | +^ nano-tunel |     
-^ Eurotunel | 0 | 1 |+^ Eurotunel |     |
  
-Vidíme, že s jedinou výjimkou (//tunelář//) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v jiných typech textů, byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu (možno též typem dotazu **Podřetězec** ''tunel'') v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty:+Vidíme, že s jedinou výjimkou (//tunelář//) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v [[pojmy:txtype_group|jiných typech textů]], byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu (možno též typem dotazu **Část slova** ''tunel'') v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty:
  
 Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //tunelujících// a plenících naši zem. (SYN2005) Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //tunelujících// a plenících naši zem. (SYN2005)