Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:reseni_ukolu [2016/08/30 10:31] – [Lekce 7] michalskrabal | kurz:reseni_ukolu [2016/09/27 17:23] – [Lekce 3] jankocek |
---|
===== Lekce 3 ===== | ===== Lekce 3 ===== |
| |
* Podřetězec //pes// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje celkem 15 581krát, frekvenční distribuce lemmat je následující: | * Podřetězec //pes// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje celkem 15 581krát (typ dotazu: Slovní tvar; zaškrtnuta volba Shoda velikosti). Frekvenční distribuce lemmat je následující: |
| |
[{{:kurz:podretezec_pes.png?nolink&600|FIXME}}] | [{{:kurz:podretezec_pes.png}}] |
| |
<WRAP clear/> | <WRAP clear/> |
===== Lekce 5 ==== | ===== Lekce 5 ==== |
| |
1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:syn2015|SYN2015]] příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://kontext.korpus.cz/view?q=~yvns3xpG&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 14 výskytů]], z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2009PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary). | 1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:syn2015|SYN2015]] příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://kontext.korpus.cz/view?q=~yvns3xpG&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 14 výskytů]], z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary). |
| |
2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí ''[word=%%".*her.*"%%]''((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|podřetězec]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin. Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]]. | 2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí ''[word=%%".*her.*"%%]''((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|podřetězec]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin. Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]]. |
Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu dotazem na **Lemma** ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). | Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu dotazem na **Lemma** ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). |
| |
V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (podtrženy jsou případy, jež nás zajímají): | V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (červeně zvýrazněny jsou případy, jež nás zajímají): |
^ Lemma ^ 2001pub ^ 2011pub ^ | ^ Lemma ^ 2001pub ^ 2011pub ^ |
^ tunel | 233 | 245 | | ^ tunel | 233 | 245 | |
^ __tunelář__ | 29 | 3 | | ^ <fc #ff0000>tunelář</fc> | 29 | 3 | |
^ __tunelování__ | 25 | 15 | | ^ <fc #ff0000>tunelování</fc> | 25 | 15 | |
^ __vytunelovaný__ | 10 | 6 | | ^ <fc #ff0000>vytunelovaný</fc> | 10 | 6 | |
^ __vytunelování__ | 9 | 5 | | ^ <fc #ff0000>vytunelování</fc> | 9 | 5 | |
^ __vytunelovat__ | 9 | 1 | | ^ <fc #ff0000>vytunelovat</fc> | 9 | 1 | |
^ __tunelovat__ | 8 | 4 | | ^ <fc #ff0000>tunelovat</fc> | 8 | 4 | |
^ tunelový | 8 | 10 | | ^ tunelový | 8 | 10 | |
^ __tunelovaný__ | 1 | 0 | | ^ <fc #ff0000>tunelovaný</fc> | 1 | 0 | |
^ tunelovitý | 1 | 0 | | ^ tunelovitý | 1 | 0 | |
^ __tuneláž__ | 0 | 1 | | ^ <fc #ff0000>tuneláž</fc> | 0 | 1 | |
^ nano-tunel | 0 | 1 | | ^ nano-tunel | 0 | 1 | |
^ Eurotunel | 0 | 1 | | ^ Eurotunel | 0 | 1 | |
| |
Vidíme, že s jedinou výjimkou (//tunelář//) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v jiných typech textů. Vyhledávání stejného slovního základu (možno též typem dotazu **Podřetězec** ''tunel'') v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty: | Vidíme, že s jedinou výjimkou (//tunelář//) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v [[pojmy:txtype_group|jiných typech textů]], byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu (možno též typem dotazu **Podřetězec** ''tunel'') v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty: |
| |
Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //tunelujících// a plenících naši zem. (SYN2005) | Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //tunelujících// a plenících naši zem. (SYN2005) |
| |
[...] moskevská prokuratura ho má za obyčejného //velkotuneláře// a neúspěšně žádala jeho vydání. (SYN2005) | [...] moskevská prokuratura ho má za obyčejného //velkotuneláře// a neúspěšně žádala jeho vydání. (SYN2005) |
| |
| Václav Havel v Rudolfinu s vážnou tváří pronesl, že "ekonomická základna je //protunelovaná//, protože se nevyvíjela v řádu Božích přikázání". (SYN2005) |
| |
A do toho strach, že jsou //podtunelovaný// další banky a že je jen otázka času, kdy se zhroutěj. (SYN2015) | A do toho strach, že jsou //podtunelovaný// další banky a že je jen otázka času, kdy se zhroutěj. (SYN2015) |
| |
[...] po letech vrátila bodrý úsměv řadě //supertunelářů//, šéfů H-systému a velkozlodějů všeho druhu. (SYN2015) | [...] po letech vrátila bodrý úsměv řadě //supertunelářů//, šéfů H-systému a velkozlodějů všeho druhu. (SYN2015) |
| |
Jak však ukazují jiné odvozeniny (//tunelovací//, //protunelovat// atd.), jejichž výskyt je omezen téměř výlučně na odborné texty, bylo rozumné dané aktualizace hledat pouze v subkorpusu publicistických textů. | |
| |