Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:reseni_ukolu [2016/08/18 15:15] – [Lekce 5] michalskrabal | kurz:reseni_ukolu [2018/05/03 11:05] – [Lekce 3] luciechlumska |
---|
===== Lekce 1 ===== | ===== Lekce 1 ===== |
| |
V korpusu SYN2015 bylo nalezeno 15 výskytů adjektiva //nejneobvyklejší//, z toho jednou se daný tvar nachází na začátku věty (je s velkým počátečním písmem). Výsledná obrazovka by měla vypadat takto: | V korpusu [[cnk:syn2015|SYN2015]] bylo nalezeno 15 výskytů adjektiva //nejneobvyklejší//, z toho jednou se daný tvar nachází na začátku věty (je s velkým počátečním písmem). Výsledná obrazovka by měla vypadat takto: |
| |
{{:kurz:nejneobvyklejsi.png?direct&600|}} | {{:kurz:nejneobvyklejsi.png?direct&600|}} |
===== Lekce 2 ===== | ===== Lekce 2 ===== |
| |
V korpusu SYN2015 byste měli najít tyto údaje: | V korpusu [[cnk:syn2015|SYN2015]] byste měli najít tyto údaje: |
| |
* 8479 výskytů lemmatu //vědomí// -- [[https://kontext.korpus.cz/view?q=~w0fAdPkV&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|výsledek zde]] | * 8479 výskytů lemmatu //vědomí// -- [[https://kontext.korpus.cz/view?q=~w0fAdPkV&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|výsledek zde]] |
===== Lekce 3 ===== | ===== Lekce 3 ===== |
| |
* Podřetězec //pes// se v korpusu SYN2015 vyskytuje celkem 15 581krát, frekvenční distribuce lemmat je následující: | * Část slova //pes// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje celkem 15 581krát (typ dotazu: Část slova). Frekvenční distribuce lemmat (tedy slov, jejichž nějaký tvar obsahuje tento podřetězec) je následující: |
| |
[{{:kurz:podretezec_pes.png?nolink&600|FIXME}}] | [{{:kurz:podretezec_pes.png}}] |
| |
<WRAP clear/> | <WRAP clear/> |
| |
| |
* Frekvenční distribuce všech předložek předcházejících lemmatu //vědomí// získáme [[vyhodnoceni_dotazu#frekvencni_distribuce_slovnich_druhu_v_okoli_kwicu|analogickým postupem]], jakým jsme hledali příslovce rozvíjející dvojici adjektiv //proslulý// a //věhlasný//, tzn. pomocí atributu **pos** a pozice **1L** v menu **Frekvence → Vlastní**. Zajímat nás bude hned první řádek ([[seznamy:tagy#pozice_1_-_slovni_druh|prepozice jsou značeny zkratkou R]]), na nějž aplikujeme pozitivní filtr a provedeme opět frekvenční distribuci výrazů v pozici 1L, tentokrát však s atributem **lemma**. Výsledek v korpusu SYN2010 by měl vypadat takto: | * Frekvenční distribuce všech předložek předcházejících lemmatu //vědomí// získáme [[vyhodnoceni_dotazu#frekvencni_distribuce_slovnich_druhu_v_okoli_kwicu|analogickým postupem]], jakým jsme hledali příslovce rozvíjející dvojici adjektiv //proslulý// a //věhlasný//, tzn. pomocí atributu **pos** a pozice **1L** v menu **Frekvence → Vlastní**. Zajímat nás bude hned první řádek ([[seznamy:tagy#pozice_1_-_slovni_druh|prepozice jsou značeny zkratkou R]]), na nějž aplikujeme pozitivní filtr a provedeme opět frekvenční distribuci výrazů v pozici 1L, tentokrát však s atributem **lemma**. Výsledek v korpusu [[cnk:syn2010|SYN2010]] by měl vypadat takto: |
| |
[{{:kurz:frekvdispredlozkyvedomi.png?400|Frekvenční distribuce předložek předcházejících lemmatu //vědomí// v SYN2010}}] | [{{:kurz:frekvdispredlozkyvedomi.png?400|Frekvenční distribuce předložek předcházejících lemmatu //vědomí// v SYN2010}}] |
| |
Nejfrekventovanější výsledky (word, [[pojmy:case-sensitive|case-sensitive]]): //nejnebezpečnější// (220), //Nejnebezpečnější// (41), //nejnevhodnější// (38), //nejnepříjemnější// (34), //nejnepatrnější// (27), //nejneuvěřitelnější// (24), //nejnevinnější// (19), //nejnemožnější// (18)... | Nejfrekventovanější výsledky (word, [[pojmy:case-sensitive|case-sensitive]]): //nejnebezpečnější// (220), //Nejnebezpečnější// (41), //nejnevhodnější// (38), //nejnepříjemnější// (34), //nejnepatrnější// (27), //nejneuvěřitelnější// (24), //nejnevinnější// (19), //nejnemožnější// (18)... |
| |
===== Lekce 5 ==== | ===== Lekce 5 ==== |
| |
Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu SYN2015 příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://kontext.korpus.cz/view?q=~yvns3xpG&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 14 výskytů]], z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2009PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na této pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary). | 1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:syn2015|SYN2015]] příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://kontext.korpus.cz/view?q=~yvns3xpG&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 14 výskytů]], z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary). |
| |
Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu ORAL2013. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí ''[word=%%".*her.*"%%]''((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|podřetězec]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// doprostřed hledaného řetězce k výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin. Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]]. | 2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí ''[word=%%".*her.*"%%]''((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|Část slova]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin. Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]]. |
| |
===== Lekce 6 ===== | ===== Lekce 6 ===== |
V [[cnk:syn2010|SYN2010]] je situace obdobná: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]]. | V [[cnk:syn2010|SYN2010]] je situace obdobná: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]]. |
| |
V korpusech řady ORAL se toto slovo -- s jedinou výjimkou (//tratoliště drobků// v [[cnk:oral2008|ORAL2008]]) -- nevyskytuje (protože jsou mluvené korpusy nelemmatizované, patrně jste hledali slovní tvar ''tratolišt.*''). Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami? | V korpusu [[cnk:oral|ORAL (v1)]] se toto slovo -- s jedinou, o to však půvabnější výjimkou, za niž by se nemusel stydět ani Hrabal (// ...eště si ho vodšoupne jako dál a žere a tam prostě pod nim **tratoliště drobků**, a já na něj koukám a řikám Láďo proč si myslíš že sem ti tam dala ten talíř?//) -- nevyskytuje. Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami? |
| |
2. Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]]. | 2. Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_„slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]]. |
| |
Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu **lc** najdeme jen dva společné: //teprve// a //už//. Synonymní //již// je vyhrazeno skoro výlučně lemmatu //nyní//, což může být důsledek toho, že jak //nyní//, tak //již// mají příznak knižnosti. | Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu **lc** najdeme jen dva společné: //teprve// a //už//. Synonymní //již// je vyhrazeno skoro výlučně lemmatu //nyní//, což může být důsledek toho, že jak //nyní//, tak //již// mají příznak knižnosti. |
===== Lekce 7 ===== | ===== Lekce 7 ===== |
| |
=== Beletrie po roce 1990 === | Publicistické texty z roku 2001 pokrývá korpus [[cnk:syn2005|SYN2005]], zvolíme si proto ten a zadáme v něm tento CQL dotaz: ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />''. Většina z 31 případů se týká právě newyorských mrakodrapů, manuální filtrací nežádoucích výskytů (pomocí volby **Výběr řádků → Odstranit z výsledku vybrané řádky**) by vám mělo zůstat [[https://kontext.korpus.cz/view?q=~MbHCmhfq&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&viewmode=kwic&|těchto 22 výskytů]]. Trvalý subkorpus vytvoříte obdobně zformulovaným dotazem, měl by mít přes 7,8 milionů pozic. Pro kontrolu v něm zkuste zadat první část výše uvedeného dotazu, tedy ''[lemma=%%"(?i)dvojče" & word="D.*"%%]'', opět by vám mělo vyjít 31 výsledků. |
| |
v korpusu [[cnk:syn|SYN]] jsme hledali: | |
* Podmínku omezující rok vydání určitého žánru na "beletrii vydanou po roce 1990" | |
Jak na to? | |
Nejprve pomocí klikatelného rozhraní vložte příslušné podmínky: | |
| |
| |
{{within_podminka.png?500| Podmínka: textovým typem je beletrie}} | |
| |
Obdobně následuje podmínka roku vydání – //rokvyd//. | |
| |
Posléze před ''rokvyd=%%"1990"%%'' doplňte ještě znaménko pro "větší nebo rovno" (to, že v rozhraní KonText fungují tyto operátory, umožní nevypisovat každý rok zvlášť). | |
| |
V posledním kroku je třeba doplnit zadání: co se má v daném subkorpusu vyhledat? Zkusit lze i prázdnou pozici (''[]''), vyhledání všech pozic v daném subkorpusu ovšem trvá velmi dlouho. Další nástrahou je pak i skutečnost, že je nutné spojit vícečetné podmínky – pomocí operátoru ''&'', který jsme si ukazovali v sekci o [[pokrocile_dotazy#kombinace_podminek_v_ramci_jedne_pozice|CQL]]. Výsledný dotaz na libovolné lemma (např. "pravice") pak může vypadat takto: | |
| |
* ''[lemma=%%"pravice"] within <opus txtype_group="beletrie" & rokvyd>="1990"%% />'' | |
* Výsledky pro SYN: 1741 dokladů. Jak rozlišit, které z nich odkazují třeba k //podané pravici// a které k //politickému uskupení//, si ukážeme v dnešní lekci. | |
| |
[{{:kurz:podminka_beletriearokvyd.png?400|Vyhledávání prázdné pozice a nespojené podmínky}}] | |
| |
[{{:kurz:pravice_rokvyd_podminka.png?400|Vyhledání lemmatu //pravice// a spojení dvou podmínek}}] | |
| |
=== Konce vět v české beletrii === | |
| |
* Druhý úkol, tvary sloves na koncích vět v české beletrii, lze vyhledat pomocí našeho [[subkorpusy#prikladsubkorpus_originalni_cestiny|dříve vytvořeného]] subkorpusu na základě SYN2010 (BELcs). | |
* Rozhodneme-li se hledat pouze slovesa následovaná interpunkcí, může dotaz vypadat takto: [tag=%%"V.*"][tag="Z.*"%%]</s>.((Takto formulovaný dotaz však nachází pouze věty ukončené jedním interpunkčním znaménkem.)) Výskytů je, [[https://kontext.korpus.cz/first?shuffle=1&reload=&corpname=syn2010&usesubcorp=BELcs&queryselector=cqlrow&iquery=&lemma=&lpos=&phrase=&word=&wpos=&char=&cql=%5Btag%3D%22V.*%22%5D%5Btag%3D%22Z.*%22%5D%3C%2Fs%3E&default_attr=word&fc_lemword_window_type=both&fc_lemword_wsize=5&fc_lemword=&fc_lemword_type=all&fc_pos_window_type=both&fc_pos_wsize=5&fc_pos_type=all&sca_opus.nazev=|jak je vidět]], požehnaně (209 554 vět splňujících tuto podmínku) a [[manualy:kontext:frekvencni_distribuce#vlastni_nastaveni_frekvencni_distribuce|frekvence]] nám kupříkladu umožní porovnat např. podíl vět oznamovacích, tázacích a zvolacích – jen distribuci musíme vytvořit na první pozici vpravo, 1P (tedy v případě, že se KWIC začíná počítat od pozice nejvíc vlevo). | |
| |
[{{:kurz:slovesa_konecvetybel.png?400|Vyhledávání vět ukončených slovesy v beletrii}}] | Publicistiku z roku 2011 najdeme v korpusu [[cnk:syn2015|SYN2015]]. První část dotazu zůstane stejná (tzn. hledáme lemma //dvojče//, které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací, je tedy zapotřebí zapsat dotaz ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <doc txtype_group=%%"NMG.*" & pubyear="2011"%% />''. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit 3., 8., 10., 11. a poslední případ, zůstane tak pouze [[https://kontext.korpus.cz/view?q=~xsN03OB8&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 9 výskytů]]. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů. |
| |
[{{:kurz:subkorpusbelcs_frekvdistr_1right.png?400|Frekvenční distribuce interpunkce na konci věty po slovese}}] | Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu dotazem na **Lemma** ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). |
| |
| V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (červeně zvýrazněny jsou případy, jež nás zajímají): |
| ^ Lemma ^ 2001pub ^ 2011pub ^ |
| ^ tunel | 233 | 245 | |
| ^ <fc #ff0000>tunelář</fc> | 29 | 3 | |
| ^ <fc #ff0000>tunelování</fc> | 25 | 15 | |
| ^ <fc #ff0000>vytunelovaný</fc> | 10 | 6 | |
| ^ <fc #ff0000>vytunelování</fc> | 9 | 5 | |
| ^ <fc #ff0000>vytunelovat</fc> | 9 | 1 | |
| ^ <fc #ff0000>tunelovat</fc> | 8 | 4 | |
| ^ tunelový | 8 | 10 | |
| ^ <fc #ff0000>tunelovaný</fc> | 1 | 0 | |
| ^ tunelovitý | 1 | 0 | |
| ^ <fc #ff0000>tuneláž</fc> | 0 | 1 | |
| ^ nano-tunel | 0 | 1 | |
| ^ Eurotunel | 0 | 1 | |
| |
Hledáme rozdíly mezi kolokáty v závislosti na textovém typu, v němž se vyhledává. Konkrétním příkladem je výzkum úzu polysémního [[pojmy:lemma|lemmatu]] //pravice//: | Vidíme, že s jedinou výjimkou (//tunelář//) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v [[pojmy:txtype_group|jiných typech textů]], byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu (možno též typem dotazu **Část slova** ''tunel'') v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty: |
* **V publicistice** zní podmínka vymezující subkorpus takto: ''txtype_group=%%"publicistika"%%'' ((Celý dotaz: [lemma=%%"pravice"%%] within <opus txtype_group=%%"publicistika"%% />)) a vymezuje v korpusu SYN přes čtyřicet tisíc výskytů daného výrazu.((11. 2. 2015)) Nebyl zohledněn zdrojový jazyk, protože do řady SYN zařazená publicistika je původně česká (občasnou přítomnost překladového textu např. v českých týdenících v současnosti není možné identifikovat). | |
| |
**Výsledky**: 43 800 výskytů lemmatu //pravice// umožňuje vygenerovat kolokace [[pojmy:word|slovních tvarů]] vyhledávané v rámci okna +/- 3 a setříděné podle míry [[pojmy:asociacni_miry#dice_a_logdice|logDice]]. Jako nejprominentnější kolokace se ukazují slovní tvary **//krajní, levice, levicí, levici, extrémní//**, až na 6. místě je tvar //zdviženou// – tj. odkaz k reálně pozdvihnuté paži. Typický doklad pro kolokaci //pravice// s //levicí// pak vypadá takto: ''Ať v nadcházejících volbách zvítězí pravice nebo levice, občany i v budoucnu čeká zdražování'' ((MfD, 3.6.1998)). Až na 23. pozici je odkaz k dalšímu konkrétnímu, nikoli abstraktnímu užití, a sice kolokát //vztyčenou//. | Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //tunelujících// a plenících naši zem. (SYN2005) |
| |
* V **beletrii publikované po roce 1990** zní podmínka takto: ''txtype_group=%%"publicistika" & rokvyd>="1990"%%'', pro eliminaci možných překladových interferencí jsme si vytvořili ještě subkorpus původně českých textů se 784 výskyty lemmatu //pravice// ((Náš subkorpus vytvořený na základě korpusu SYN 11. 2. 2015 se tudíž omezuje pouze na beletrii splňující podmínku ''srclang=%%"CZE"%%'' a má velikost 49 647 612 tokenů.)). Nejvýraznějším kolokátem je tvar //napřaženou//, následuje //Zasedni, potřásl, potřásají//. Po těchto slovesných tvarech je na 5. místě tvar //levici// a na 6. tvar //podávanou//, na 7. nalezneme //Všemohoucího//, na 8. a 9. pozici //zdviženou// a //vztyčenou//. | [...] moskevská prokuratura ho má za obyčejného //velkotuneláře// a neúspěšně žádala jeho vydání. (SYN2005) |
| |
Srovnání beletrie a publicistiky na základě kolokačních profilů lemmatu //pravice// ukazuje tendenci k užívání **konkrétního významu** dané formy v **krásné literatuře** a naopak užívání **přeneseného, abstrahovaného významu** popisujícího politické proudy v **novinových textech**. | Václav Havel v Rudolfinu s vážnou tváří pronesl, že "ekonomická základna je //protunelovaná//, protože se nevyvíjela v řádu Božích přikázání". (SYN2005) |
| |
* V **odborných textech** – nepřekladová, originální čeština o rozsahu 68 354 786 tokenů obsahuje 440 dokladů.((Subkorpus byl utvořen na základě korpusu SYN k 4. 5. 2014.)) V tomto subkorpusu jsou zastoupeny mj. religionistické texty: tím se do první dvacítky kolokujících tvarů dostalo adjektivum //Boží//: ''sedí na pravici Boží''. V důsledku zařazení hudebního časopisu Folk & Country zase jako výrazný kolokát figuruje tvar //zvedni// – čím to? V r. 1993 si totiž ''nejmenovaná politická strana (...) vybrala píseň Pavla Žalmana Lohonky **Zvedni pravici s plnou sklenicí** za svoji volební hymnu''. Je patrné, že souborná kolokační analýza odborných textů je ztížena jejich různorodostí a přínosné by bylo zkoumat užití v jednotlivých žánrech či rejstřících. | A do toho strach, že jsou //podtunelovaný// další banky a že je jen otázka času, kdy se zhroutěj. (SYN2015) |
| |
* Na závěr: rozdíl užití v **beletrii před a po r. 1990** – srovnání kolokátů splňujících podmínku ''within <opus rokvyd<=%%"1989"%%/>'' s kolokáty porevolučními je obtížné, protože v původní češtině je k dispozici pouhých 52 výskytů ((11. 2. 2015)), tudíž vyvstávají pouze kolokace ''po (jeho) pravici'' a ''(podal) mu pravici''. Pomocí funkcionality pro výběr jednotlivých řádků bychom mohli snadno manuálně vytřídit abstraktní užití odkazující k politickému proudu, ale není to potřeba: nevyskytne se ani jednou. V hlavní tendenci k užití konkrétního významu se tedy předrevoluční a porevoluční výsledky shodují, v čem se zjevně liší je absence kolokátů //na/po pravici Boží/Všemohoucího// v publikacích vydaných za komunismu. Ta se zdá být zapříčiněná dobou vzniku textů, ale kvůli malému počtu dokladů to nelze tvrdit s jistotou. | Úřady znovu vyšetřují jeho podíl na //vytunelovávání// CS Fondů a okolnostech, za kterých získal MUS. (SYN2015) |
| |
<WRAP round tip 60%> | |
**Můžeme ještě nějak jinak porovnat výsledky založené na tak rozdílné velikosti dat? Pomocí [[pojmy:ipm|i.p.m.]]** můžeme přinejmenším ověřit, zda nedošlo přímo k řádové proměně v užívání daného lemmatu, ovšem velký pozor musíme dát na to, na jakém datovém souboru je automaticky vypočítané i.p.m. založené. Pokud si totiž vytvoříme např. subkorpus z textového typu (BELcs), a další vyhledávání omezíme pouze podmínkou vloženou do CQL dotazu (před r. 1990), vypočítává se i.p.m. z celého subkorpusu. Pro správný výpočet relativní frekvence jevu je tedy nutné vytvořit subkorpus splňující veškeré vymezující podmínky, nelze se spokojit s podmínkou naklikanou při pokládání dotazu. | |
</WRAP> | |
| |
V případě předlistopadové české beletrie je tedy nutné vytvořit subkorpus na základě vlastní podmínky ''rokvyd<=%%"1989" & txtype_group="beletrie" & srclang="CZE"%%'' ((11. 2. 2015 4 093 467 pozic)) – i.p.m. //pravice// je 12,7 – a srovnat se subkorpusem vytvořeným pomocí totožného postupu lišícího se jen v ''rokvyd>=%%"1990"%%'' ((11. 2. 2015 45 554 145 pozic)), kde je i.p.m. totožného lemmatu 17,2. K řádové změně tedy nedošlo. | [...] po letech vrátila bodrý úsměv řadě //supertunelářů//, šéfů H-systému a velkozlodějů všeho druhu. (SYN2015) |
| |