Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:reseni_ukolu [2018/05/03 11:54]
Michal Škrabal [Lekce 3]
kurz:reseni_ukolu [2018/08/08 12:32] (aktuální)
Michal Škrabal [Lekce 7]
Řádek 98: Řádek 98:
 ===== Lekce 5 ==== ===== Lekce 5 ====
  
-1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:​syn2015|SYN2015]] příliš zajímavý není, na dotaz ''​[word=%%"​cvičišti"​][]{1,​10}[word="​bojišti"​%%]''​ dostaneme [[https://​kontext.korpus.cz/​view?​q=~yvns3xpG&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|těchto 14 výskytů]],​ z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''​těžko|těžce''​. Výsledkem by měla být [[https://​kontext.korpus.cz/​view?​q=~TbBJljWz&​attr_allpos=kw&​attrs=word&​corpname=syn2013pub&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|tato konkordance]],​ z níž je patrné, že toto přísloví ​má stabilnější formu a je daleko ​méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://​kontext.korpus.cz/​view?​q=~jQgjF6OO&​attr_allpos=kw&​attrs=word&​corpname=syn2013pub&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary).+1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:​syn2015|SYN2015]] příliš zajímavý není, na dotaz ''​[word=%%"​cvičišti"​][]{1,​10}[word="​bojišti"​%%]''​ dostaneme [[https://​kontext.korpus.cz/​view?​q=~yvns3xpG&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|těchto 14 výskytů]],​ z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''​těžko|těžce''​. Výsledkem by měla být [[https://​kontext.korpus.cz/​view?​q=~TbBJljWz&​attr_allpos=kw&​attrs=word&​corpname=syn2013pub&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|tato konkordance]],​ z níž je patrné, že toto přísloví ​mělo stabilnější formu a bylo méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://​kontext.korpus.cz/​view?​q=~jQgjF6OO&​attr_allpos=kw&​attrs=word&​corpname=syn2013pub&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary).
  
 2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:​oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:​recall|recall]] pomocí ''​[word=%%"​.*her.*"​%%]''​((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#​nac_je_ktery_typ_dotazu_vhodny|Část slova]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //​nádhera//​ ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //​hermelín//​ a //herce// s //​herečkami//​ -– možný dotaz vypadá takto: ''​[word=%%"​her[^cme][^cč].*"​%%]''​. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //​herních//​ odvozenin. ​ Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //​hernajs//?​ Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''​*''​ nahradíme kvatifikátorem ''​+''​ a zadáme dotaz v této podobě: ''​[word=%%"​her[^cme][^cč].+"​%%]''​. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //​hernajs//​. O něco pestřejší je [[https://​kontext.korpus.cz/​view?​q=~KHaUPHs9&​attr_allpos=kw&​attrs=word&​corpname=oral2006&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.id&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|situace v ORAL2006]]. 2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:​oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:​recall|recall]] pomocí ''​[word=%%"​.*her.*"​%%]''​((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#​nac_je_ktery_typ_dotazu_vhodny|Část slova]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //​nádhera//​ ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //​hermelín//​ a //herce// s //​herečkami//​ -– možný dotaz vypadá takto: ''​[word=%%"​her[^cme][^cč].*"​%%]''​. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //​herních//​ odvozenin. ​ Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //​hernajs//?​ Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''​*''​ nahradíme kvatifikátorem ''​+''​ a zadáme dotaz v této podobě: ''​[word=%%"​her[^cme][^cč].+"​%%]''​. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //​hernajs//​. O něco pestřejší je [[https://​kontext.korpus.cz/​view?​q=~KHaUPHs9&​attr_allpos=kw&​attrs=word&​corpname=oral2006&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.id&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|situace v ORAL2006]].
Řádek 110: Řádek 110:
 V [[cnk:​syn2010|SYN2010]] je situace obdobná: lemma //​tratoliště//​ se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://​kontext.korpus.cz/​view?​q=~Kyq0AA2S&​attr_allpos=kw&​attrs=word&​corpname=syn2010&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​structs=s&​viewmode=kwic&​|těchto 8 případů]]. V [[cnk:​syn2010|SYN2010]] je situace obdobná: lemma //​tratoliště//​ se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://​kontext.korpus.cz/​view?​q=~Kyq0AA2S&​attr_allpos=kw&​attrs=word&​corpname=syn2010&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​structs=s&​viewmode=kwic&​|těchto 8 případů]].
  
-V korpusu [[cnk:​oral|ORAL ​(v1)]] se toto slovo -- s jedinou, o to však půvabnější výjimkou, za niž by se nemusel stydět ani Hrabal (// ...eště si ho vodšoupne jako dál a žere a tam prostě pod nim **tratoliště drobků**, a já na něj koukám a řikám Láďo proč si myslíš že sem ti tam dala ten talíř?//) -- nevyskytuje. Ovšem ruku na srdce, kdy naposledy jste o //​tratolišti//​ hovořili vy sami?+V korpusu [[cnk:​oral|ORAL v1]] se toto slovo -- s jedinou, o to však půvabnější výjimkou, za niž by se nemusel stydět ani Hrabal (// ...eště si ho vodšoupne jako dál a žere a tam prostě pod nim **tratoliště drobků**, a já na něj koukám a řikám Láďo proč si myslíš že sem ti tam dala ten talíř?//) -- nevyskytuje. Ovšem ruku na srdce, kdy naposledy jste o //​tratolišti//​ hovořili vy sami?
  
 2. Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //​teďkon%%(c)%%//,​ //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#​jak_spravne_zadat_hledane_„slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://​syd.korpus.cz/​x0iwEkwx.syn|nástroje SyD]]. 2. Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //​teďkon%%(c)%%//,​ //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#​jak_spravne_zadat_hledane_„slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://​syd.korpus.cz/​x0iwEkwx.syn|nástroje SyD]].
Řádek 136: Řádek 136:
 Publicistické texty z roku 2001 pokrývá korpus [[cnk:​syn2005|SYN2005]],​ zvolíme si proto ten a zadáme v něm tento CQL dotaz: ''​[lemma=%%"​(?​i)dvojče"​ & word="​D.*"​%%] within <opus txtype=%%"​PUB"​ & rokvyd="​2001"​%% />''​. Většina z 31 případů se týká právě newyorských mrakodrapů,​ manuální filtrací nežádoucích výskytů (pomocí volby **Výběr řádků → Odstranit z výsledku vybrané řádky**) by vám mělo zůstat [[https://​kontext.korpus.cz/​view?​q=~MbHCmhfq&​attr_allpos=kw&​attrs=word&​corpname=syn2005&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​viewmode=kwic&​|těchto 22 výskytů]]. Trvalý subkorpus vytvoříte obdobně zformulovaným dotazem, měl by mít přes 7,8 milionů pozic. Pro kontrolu v něm zkuste zadat první část výše uvedeného dotazu, tedy ''​[lemma=%%"​(?​i)dvojče"​ & word="​D.*"​%%]'',​ opět by vám mělo vyjít 31 výsledků. Publicistické texty z roku 2001 pokrývá korpus [[cnk:​syn2005|SYN2005]],​ zvolíme si proto ten a zadáme v něm tento CQL dotaz: ''​[lemma=%%"​(?​i)dvojče"​ & word="​D.*"​%%] within <opus txtype=%%"​PUB"​ & rokvyd="​2001"​%% />''​. Většina z 31 případů se týká právě newyorských mrakodrapů,​ manuální filtrací nežádoucích výskytů (pomocí volby **Výběr řádků → Odstranit z výsledku vybrané řádky**) by vám mělo zůstat [[https://​kontext.korpus.cz/​view?​q=~MbHCmhfq&​attr_allpos=kw&​attrs=word&​corpname=syn2005&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​viewmode=kwic&​|těchto 22 výskytů]]. Trvalý subkorpus vytvoříte obdobně zformulovaným dotazem, měl by mít přes 7,8 milionů pozic. Pro kontrolu v něm zkuste zadat první část výše uvedeného dotazu, tedy ''​[lemma=%%"​(?​i)dvojče"​ & word="​D.*"​%%]'',​ opět by vám mělo vyjít 31 výsledků.
  
-Publicistiku z roku 2011 najdeme v korpusu [[cnk:​syn2015|SYN2015]]. První část dotazu zůstane stejná (tzn. hledáme lemma //​dvojče//,​ které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací,​ je tedy zapotřebí zapsat dotaz ''​[lemma=%%"​(?​i)dvojče"​ & word="​D.*"​%%] within <doc txtype_group=%%"​NMG.*"​ & pubyear="​2011"​%% />''​. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit ​3., 8., 10., 11. a poslední ​případ, zůstane tak pouze [[https://​kontext.korpus.cz/​view?​q=~xsN03OB8&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|těchto 9 výskytů]]. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů.+Publicistiku z roku 2011 najdeme v korpusu [[cnk:​syn2015|SYN2015]]. První část dotazu zůstane stejná (tzn. hledáme lemma //​dvojče//,​ které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací,​ je tedy zapotřebí zapsat dotaz ''​[lemma=%%"​(?​i)dvojče"​ & word="​D.*"​%%] within <doc txtype_group=%%"​NMG.*"​ & pubyear="​2011"​%% />''​. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit ​5 nerelevantních ​případů, zůstane tak pouze [[https://​kontext.korpus.cz/​view?​q=~xsN03OB8&​attr_allpos=kw&​attrs=word&​corpname=syn2015&​ctxattrs=word&​pagesize=40&​refs=%3Ddoc.title&​structs=s&​viewmode=kwic&​|těchto 9 výskytů]]. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů.
  
 Aktualizace lexému //tunel// hledáme pomocí dotazu ''​[lemma=%%"​.*tunel.*"​%%] within <opus txtype=%%"​PUB"​ & rokvyd="​2001"​%% />'',​ případně v již vytvořeném subkorpusu dotazem na **Lemma** ''​.*tunel.*''​. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://​kontext.korpus.cz/​freqs?​q=~GDULH4Ir&​attr_allpos=kw&​attrs=word&​corpname=syn2005&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​usesubcorp=pok01&​viewmode=kwic&&​fcrit=lemma/​e+0~0%3E0&​ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //​podtunelování//​ -- odborný termín, //​Eurotunel//​ -- jméno firmy apod.). ​ Aktualizace lexému //tunel// hledáme pomocí dotazu ''​[lemma=%%"​.*tunel.*"​%%] within <opus txtype=%%"​PUB"​ & rokvyd="​2001"​%% />'',​ případně v již vytvořeném subkorpusu dotazem na **Lemma** ''​.*tunel.*''​. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://​kontext.korpus.cz/​freqs?​q=~GDULH4Ir&​attr_allpos=kw&​attrs=word&​corpname=syn2005&​ctxattrs=word&​pagesize=40&​refs=%3Dopus.nazev&​usesubcorp=pok01&​viewmode=kwic&&​fcrit=lemma/​e+0~0%3E0&​ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //​podtunelování//​ -- odborný termín, //​Eurotunel//​ -- jméno firmy apod.). ​
Řádek 158: Řádek 158:
 Vidíme, že s jedinou výjimkou (//​tunelář//​) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v [[pojmy:​txtype_group|jiných typech textů]], byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu (možno též typem dotazu **Část slova** ''​tunel''​) v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty: Vidíme, že s jedinou výjimkou (//​tunelář//​) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v [[pojmy:​txtype_group|jiných typech textů]], byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu (možno též typem dotazu **Část slova** ''​tunel''​) v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty:
  
-Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //​tunelujících//​ a plenících naši zem. (SYN2005)+//Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //​tunelujících//​ a plenících naši zem.// (SYN2005)
  
-[...] moskevská prokuratura ho má za obyčejného //​velkotuneláře//​ a neúspěšně žádala jeho vydání. (SYN2005)+[...] //moskevská prokuratura ho má za obyčejného //​velkotuneláře//​ a neúspěšně žádala jeho vydání.// (SYN2005)
  
-Václav Havel v Rudolfinu s vážnou tváří pronesl, že "​ekonomická základna je //​protunelovaná//,​ protože se nevyvíjela v řádu Božích přikázání"​. (SYN2005)+//Václav Havel v Rudolfinu s vážnou tváří pronesl, že "​ekonomická základna je //​protunelovaná//,​ protože se nevyvíjela v řádu Božích přikázání"​.// (SYN2005)
  
-A do toho strach, že jsou //​podtunelovaný//​ další banky a že je jen otázka času, kdy se zhroutěj. (SYN2015)+//A do toho strach, že jsou //​podtunelovaný//​ další banky a že je jen otázka času, kdy se zhroutěj.// (SYN2015)
  
-Úřady znovu vyšetřují jeho podíl na //​vytunelovávání//​ CS Fondů a okolnostech,​ za kterých získal MUS. (SYN2015)+//Úřady znovu vyšetřují jeho podíl na //​vytunelovávání//​ CS Fondů a okolnostech,​ za kterých získal MUS.// (SYN2015)
  
-[...] po letech vrátila bodrý úsměv řadě //​supertunelářů//,​ šéfů H-systému a velkozlodějů všeho druhu. (SYN2015)+[...] //po letech vrátila bodrý úsměv řadě //​supertunelářů//,​ šéfů H-systému a velkozlodějů všeho druhu.// (SYN2015)