Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:reseni_ukolu [2016/08/29 16:44] – [Lekce 7] michalskrabal | kurz:reseni_ukolu [2021/04/13 09:03] – [Lekce 6] michalskrabal |
---|
===== Lekce 1 ===== | ===== Lekce 1 ===== |
| |
V korpusu [[cnk:syn2015|SYN2015]] bylo nalezeno 15 výskytů adjektiva //nejneobvyklejší//, z toho jednou se daný tvar nachází na začátku věty (je s velkým počátečním písmem). Výsledná obrazovka by měla vypadat takto: | V korpusu [[cnk:syn2020|SYN2020]] bylo nalezeno 43 výskytů adjektiva //nejvznešenější//, z toho třikrát se daný tvar nachází na začátku věty (je s velkým počátečním písmem) a jednou je celý zapsán velkými písmeny. |
| Lemma //vznešený// se v tomtéž korpusu vyskytuje 1314krát. |
{{:kurz:nejneobvyklejsi.png?direct&600|}} | |
| |
Lemma //obvyklý// se v tomtéž korpusu vyskytuje 9134krát: | |
| |
{{:kurz:obvykly.png?direct&600|}} | |
===== Lekce 2 ===== | ===== Lekce 2 ===== |
| |
V korpusu [[cnk:syn2015|SYN2015]] byste měli najít tyto údaje: | V korpusu [[cnk:syn2020|SYN2020]] byste měli najít tyto údaje: |
| |
* 8479 výskytů lemmatu //vědomí// -- [[https://kontext.korpus.cz/view?q=~w0fAdPkV&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|výsledek zde]] | * 7 919 výskytů lemmatu //vědomí// -- [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=415&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.title&q=~HScUEoOyYuy4|výsledek zde]] |
* 7196 výskytů tvaru //vědomí// přesně v této podobě -- [[https://kontext.korpus.cz/view?q=~kcI9D46q&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|výsledek zde]] | * 6 698 výskytů tvaru //vědomí// přesně v této podobě -- [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=415&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.title&q=~900EUm4Ug6OS|výsledek zde]] |
* zdrojový jazyk: např. //es: španělština//, //cs: čeština// nebo //en: angličtina// | * zdrojový jazyk: např. //es: španělština//, //cs: čeština// nebo //en: angličtina// |
* překladatel: např. //Jungmannová, Marie//, //Válková, Marie// nebo //Hanuš, Jiří// | * překladatel: např. //Faltýsková, Alena//, //Dvořák, Libor// nebo //Petkevič, Vladimír// |
* autor: např. //Amat, Núria//, //Brown, Sandra// či //Eganová, Jennifer// | * autor: např. //Mitosek, Zofia//, //Komárek, Stanislav// či //Habermas, Jürgen// |
| |
===== Lekce 3 ===== | ===== Lekce 3 ===== |
| |
* Podřetězec //pes// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje celkem 15 581krát, frekvenční distribuce lemmat je následující: | |
| |
[{{:kurz:podretezec_pes.png?nolink&600|FIXME}}] | |
| |
<WRAP clear/> | <WRAP clear/> |
| |
| * Frekvenční distribuce všech předložek předcházejících lemmatu //vědomí// získáme [[vyhodnoceni_dotazu#frekvencni_distribuce_slovnich_druhu_v_okoli_kwicu|analogickým postupem]], jakým jsme hledali příslovce rozvíjející dvojici adjektiv //proslulý// a //věhlasný//, tzn. pomocí atributu **pos** a pozice **1L** v menu **Frekvence → Vlastní**. Zajímat nás bude hned první řádek ([[seznamy:tagy#pozice_1_-_slovni_druh|prepozice jsou značeny zkratkou R]]), na nějž aplikujeme pozitivní filtr a provedeme opět frekvenční distribuci výrazů v pozici 1L, tentokrát však s atributem **lemma**. Výsledek v korpusu [[cnk:syn2020|SYN2020]] by měl vypadat [[https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&structs=s&refs=%3Ddoc.title&q=~ZU2qMgasugci&fcrit=lemma%2Fe%20-1%3C0&flimit=1&fpage=1&ftt_include_empty=0|takto]]: |
| |
* Frekvenční distribuce všech předložek předcházejících lemmatu //vědomí// získáme [[vyhodnoceni_dotazu#frekvencni_distribuce_slovnich_druhu_v_okoli_kwicu|analogickým postupem]], jakým jsme hledali příslovce rozvíjející dvojici adjektiv //proslulý// a //věhlasný//, tzn. pomocí atributu **pos** a pozice **1L** v menu **Frekvence → Vlastní**. Zajímat nás bude hned první řádek ([[seznamy:tagy#pozice_1_-_slovni_druh|prepozice jsou značeny zkratkou R]]), na nějž aplikujeme pozitivní filtr a provedeme opět frekvenční distribuci výrazů v pozici 1L, tentokrát však s atributem **lemma**. Výsledek v korpusu [[cnk:syn2010|SYN2010]] by měl vypadat takto: | [{{:kurz:frekvdispredlozkyvedomi.png?direct&338|Frekvenční distribuce předložek předcházejících lemmatu //vědomí// v SYN2020}}] |
| |
[{{:kurz:frekvdispredlozkyvedomi.png?400|Frekvenční distribuce předložek předcházejících lemmatu //vědomí// v SYN2010}}] | |
| |
<WRAP clear/> | <WRAP clear/> |
| |
* Nakonec jsme se pokusili odhalit, jak se liší výskyt výplňového slova //vole// v mluvě mužů a žen. Výsledky shrnuje následující tabulka: | * Též jsme se pokusili odhalit, jak se liší výskyt výplňového slova //vole// v mluvě mužů a žen. Výsledky (po zaokrouhlení) shrnuje následující tabulka: |
| |
^ mluvený korpus ^ absol. frekvence //**vole**// ^ <fc #008000>relat. frekvence ([[pojmy:ipm|ipm]])</fc> ^ <fc #800000>muži ipm</fc> ^ <fc #FF0000>ženy ipm</fc> ^ | ^ mluvený korpus ^ absol. frekvence //**vole**// ^ <fc #008000>relat. frekvence ([[pojmy:ipm|ipm]])</fc> ^ <fc #800000>muži ipm</fc> ^ <fc #FF0000>ženy ipm</fc> ^ |
| ORAL2008 | 1343 | <fc #008000>995</fc> | <fc #800000>1732</fc> | <fc #FF0000>269</fc> | | | ORAL2008 | 1343 | <fc #008000>995</fc> | <fc #800000>1732</fc> | <fc #FF0000>269</fc> | |
| ORAL2013 | 3552 | <fc #008000>1081</fc> | <fc #800000>1975</fc> | <fc #FF0000>152</fc> | | | ORAL2013 | 3552 | <fc #008000>1081</fc> | <fc #800000>1975</fc> | <fc #FF0000>152</fc> | |
| | ORAL v1 | 5977 | <fc #008000>940</fc> | <fc #800000>1865</fc> | <fc #FF0000>187</fc> | |
| |
Můžeme rozhodně vyvodit závěr, že <fc #800000>**mužům**</fc> je //vole// v mluvě mnohem bližší nežli <fc #FF0000>**ženám**</fc>. Ale co s těmi značnými rozdíly v <fc #008000>**relativní frekvenci**</fc> při srovnávání jednotlivých korpusů (téměř poloviční výskyt v jednom korpusu ve srovnání s dvěma ostatními)? Více mohou napovědět třeba podrobné informace o korpusu [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]], někdy je však velmi těžké na příčinu podobných rozdílů přijít. | Můžeme rozhodně vyvodit závěr, že <fc #800000>**mužům**</fc> je //vole// v mluvě mnohem bližší nežli <fc #FF0000>**ženám**</fc>. Ale co s těmi značnými rozdíly v <fc #008000>**relativní frekvenci**</fc> při srovnávání jednotlivých korpusů (téměř poloviční výskyt v jednom korpusu ve srovnání s dvěma ostatními)? Více mohou napovědět třeba podrobné informace o korpusu [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]], někdy je však velmi těžké na příčinu podobných rozdílů přijít. |
== Slova obsahující sekvenci -kořen-, po níž následuje a jíž předchází alespoň jeden znak == | == Slova obsahující sekvenci -kořen-, po níž následuje a jíž předchází alespoň jeden znak == |
| |
Typ dotazu: **Lemma** | Výchozí atribut: **lemma** |
| |
Dotaz: ''.+kořen.+'' | Dotaz (s aktivovanými regulárními výrazy): ''.+kořen.+'' |
| |
<wrap lo> | <wrap lo> |
Pozn.: V dotazu je třeba použít sekvenci ''.+'', protože v zadání je uvedeno, že předcházet i následovat musí alespoň jeden znak. Z toho důvodu nelze použít sekvenci ''.*'', protože ta odpovídá i nulovému řetězci. </wrap> | Pozn.: V dotazu je třeba použít sekvenci ''.+'', protože v zadání je uvedeno, že předcházet i následovat musí alespoň jeden znak. Z toho důvodu nelze použít sekvenci ''.*'', protože ta odpovídá i nulovému řetězci. </wrap> |
| |
Počet výsledků: [[https://kontext.korpus.cz/view?q=~9gliYWzS&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|1749]] | Počet výsledků: [[https://www.korpus.cz/kontext/view?maincorp=syn2015&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&structs=p%2Cs&refs=%3Ddoc.title%2C%3Ddoc.author%2C%3Ddoc.pubyear&q=~IAcYwMWa8ioy|1749]] |
| |
Nejfrekventovanější výsledky (lemmata): //zakořeněný// (382), //zakořenit// (323), //okořenit// (299), //pokoření// (160), //okořeněný// (142), //pokořený// (82)... | Nejfrekventovanější výsledky (lemmata): //zakořeněný// (382), //zakořenit// (323), //okořenit// (299), //pokoření// (160), //okořeněný// (142), //pokořený// (82)... |
== Infinitivy odvozené od slovesa téct/téci s prefixem == | == Infinitivy odvozené od slovesa téct/téci s prefixem == |
| |
Typ dotazu: **Slovní tvar** | Výchozí atribut: **word** |
| |
Dotaz: ''.+téc[it]'' | Dotaz (s aktivovanými regulárními výrazy): ''.+téc[it]'' |
| |
<wrap lo> | |
Pozn.: Při vyhodnocování dotazu se může objevit hlášení, že zvolený a faktický typ dotazu nesouhlasí, které lze ignorovat a dotaz normálně vyhodnotit. | |
</wrap> | |
| |
Počet výsledků: [[https://kontext.korpus.cz/view?q=~90rRB44x&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|1997]] | Počet výsledků: [[https://www.korpus.cz/kontext/view?maincorp=syn2015&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&structs=p%2Cs&refs=%3Ddoc.title%2C%3Ddoc.author%2C%3Ddoc.pubyear&q=~0EsUMsEueu4q|1997]] |
| |
Nejfrekventovanější výsledky (word, [[pojmy:case-sensitive|case-sensitive]]): //utéct// (1581), //utéci// (226), //Utéct// (41), //odtéct// (24), //protéct// (15), //přitéct// (14), //vytéct// (12), //stéct// (10)... | Nejfrekventovanější výsledky: //utéct// (1622), //utéci// (230), //odtéct// (24), //protéct// (15), //přitéct// (14), //vytéct// (12), //stéct// (10)... |
| |
== Tvary negativního superlativu (pouze nom. sg.) == | == Tvary negativního superlativu (pouze nom. sg.) == |
| |
Typ dotazu: **Slovní tvar** | Výchozí atribut: **word** |
| |
Dotaz: ''nejne.+[šč]í'' (stejný výsledek v tomto korpusu dostaneme i při zadání ''nejne.*[šč]í'' | Dotaz (s aktivovanými regulárními výrazy): ''nejne.+[šč]í'' (stejný výsledek v tomto korpusu dostaneme i při zadání ''nejne.*[šč]í'') |
| |
<wrap lo> | Počet výsledků: [[https://www.korpus.cz/kontext/view?maincorp=syn2015&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&structs=p%2Cs&refs=%3Ddoc.title%2C%3Ddoc.author%2C%3Ddoc.pubyear&q=~PgEWGcaiQsSA|673]] |
Pozn.: Při vyhodnocování dotazu se může objevit hlášení, že zvolený a faktický typ dotazu nesouhlasí, které lze ignorovat a dotaz normálně vyhodnotit. | |
</wrap> | |
| |
Počet výsledků: [[https://kontext.korpus.cz/view?q=~C69GrznJ&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=30&refs=%3Ddoc.title&structs=s&viewmode=kwic&|751]] | |
| |
Nejfrekventovanější výsledky (word, [[pojmy:case-sensitive|case-sensitive]]): //nejnebezpečnější// (220), //Nejnebezpečnější// (41), //nejnevhodnější// (38), //nejnepříjemnější// (34), //nejnepatrnější// (27), //nejneuvěřitelnější// (24), //nejnevinnější// (19), //nejnemožnější// (18)... | Nejfrekventovanější výsledky: //nejnebezpečnější// (220), //nejnevhodnější// (38), //nejnepříjemnější// (34), //nejnepatrnější// (27), //nejneuvěřitelnější// (24), //nejnevinnější// (19), //nejnemožnější// (18)... |
| |
===== Lekce 5 ==== | ===== Lekce 5 ==== |
| |
1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:syn2015|SYN2015]] příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://kontext.korpus.cz/view?q=~yvns3xpG&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 14 výskytů]], z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2009PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary). | 1. Nejprve hledáme aktualizace přísloví //těžko na cvičišti, lehko na bojišti//. Pohled do korpusu [[cnk:syn2020|SYN2020]] příliš zajímavý není, na dotaz ''[word=%%"cvičišti"][]{1,10}[word="bojišti"%%]'' dostaneme [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=40&attrs=word%2Clemma%2Ctag%2Cverbtag&attr_vmode=mouseover&base_viewattr=word&structs=s&refs=%3Ddoc.title&q=~s6WUkieI6ugk|těchto 23 výskytů]], z nichž aktualizací není ani jeden. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde [[https://www.korpus.cz/kontext/view?maincorp=syn2013pub&viewmode=kwic&pagesize=40&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Dopus.nazev&fromp=2&q=~8Oey4yKCQwgQ|152 případů]]. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na **od -2 do -2**, zrušíme volbu **včetně KWIC** a typ dotazu nastavíme na **Slovní tvar**, načež vepíšeme nejběžnější formu na dané pozici (2L): ''těžko|těžce''. Výsledkem by měla být [[https://kontext.korpus.cz/view?q=~TbBJljWz&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|tato konkordance]], z níž je patrné, že toto přísloví mělo stabilnější formu a bylo méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i [[https://kontext.korpus.cz/view?q=~jQgjF6OO&attr_allpos=kw&attrs=word&corpname=syn2013pub&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|varianta obrácená]] (zde stačilo jen v dotazu prohodit oba slovní tvary). |
| |
2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí ''[word=%%".*her.*"%%]''((Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu [[prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|podřetězec]] a jako hledanou sekvenci vyplnili //her//.)), ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin. Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]]. | 2. Dále nás zajímaly kletby odvozené od slovního spojení //Herr Gott// a dostupné prostřednictvím korpusu [[cnk:oral2013|ORAL2013]]. Nejprve zkusíme dosáhnout co nejvyšší hodnoty [[pojmy:recall|recall]] pomocí jednoduchého dotazu (s využitím regulárních výrazů) ''.*her.*'', ovšem výrazy typu //nádhera// ukazují, že umístění základu //her// uprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný //hermelín// a //herce// s //herečkami// -– možný dotaz vypadá takto: ''[word=%%"her[^cme][^cč].*"%%]''. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně //heren// a //herních// odvozenin. Jak je vyřadit, když hlásku //n// musíme ponechat kvůli //hernajs//? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích -- kvantifikátor ''*'' nahradíme kvatifikátorem ''+'' a zadáme dotaz v této podobě: ''[word=%%"her[^cme][^cč].+"%%]''. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (**Frekvence → Slovní druhy**). Zajímavé je, že mezi nimi figuruje pouze //hergot// (27krát) a jedno //hernajs//. O něco pestřejší je [[https://kontext.korpus.cz/view?q=~KHaUPHs9&attr_allpos=kw&attrs=word&corpname=oral2006&ctxattrs=word&pagesize=40&refs=%3Ddoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|situace v ORAL2006]]. |
| |
===== Lekce 6 ===== | ===== Lekce 6 ===== |
| |
1. Začněme pohledem do aktuálního synchronního korpusu psané češtiny [[cnk:syn2015|SYN2015]]. Hledáme v něm lemma //tratoliště//, které se tu vyskytuje 61krát, odfiltrujeme však všechna užití //tratoliště krve//. V menu zvolíme [[manualy:kontext:filtr|Filtr → Negativní]], rozsah hledání upravíme na **od 1 do 1** (jde nám o bezprostřední pravostranný kolokát), jako typ dotazu zvolíme **Lemma** a do řádku vepíšeme dotaz //krev//. Zredukovaná konkordance odhalí ještě dva případy, kdy je substantivum //krev// rozvito adjektivem //vlastní//, bude tedy lepší rozšířit rozsah hledání na **od 1 do 2**. | **1.** Začněme pohledem do aktuálního synchronního korpusu psané češtiny SYN2020. Hledáme v něm lemma //tratoliště//, které se tu vyskytuje 57krát, odfiltrujeme však všechna užití //tratoliště krve//. V menu zvolíme [[manualy:kontext:filtr|Filtr → Negativní]], rozsah hledání upravíme na **od 1 do 1** (jde nám o bezprostřední pravostranný kolokát), jako typ dotazu zvolíme **Lemma** a do řádku vepíšeme dotaz //krev//. Zredukovaná konkordance odhalí ještě jeden případ (na posledním řádku), kdy je substantivum //krev// rozvito adjektivem //teplé//, bude tedy lepší rozšířit rozsah hledání na **od 1 do 2**. |
| |
Po odfiltrování by nám mělo zbýt [[https://kontext.korpus.cz/view?q=~CwuAPcNv&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 19 výskytů]]. Patrně nás nepřekvapí, že s výjimkou jediného případu pocházejí všechny z beletrie. Vedle metafor krotčejších (//tratoliště voleje, rozbředlého sněhu, moče, vzpomínek, minut, vlastního světla...//) najdeme sem tam nějakou peprnější, např. Hrabalovo //tratoliště básnických chcanek//. | Po odfiltrování by nám mělo zbýt [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~OsYEGSCYSEes|těchto 20 výskytů]]. Patrně nás nepřekvapí, že až na pár výjimek pocházejí všechny z beletrie: vedle konkrét //tratoliště peří, sazí, tělíček, zrcadel, písku// a expresivnějšího //tratoliště krvavých zvratků// jsou zastoupena i abstrakta //tratoliště minut, noci, agresivních slov a vět//; poměrně často stojí výraz samostatně, případně je rozvit zleva adjektivem: //rudé, krvavé, divukrásné// |
| |
V [[cnk:syn2010|SYN2010]] je situace obdobná: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]]. | V SYN2015 by nám po odfiltrování mělo zbýt [[https://kontext.korpus.cz/view?q=~CwuAPcNv&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 19 výskytů]]; s výjimkou jediného případu pocházejí všechny rovněž z beletrie. Vedle metafor krotčejších (//tratoliště voleje, rozbředlého sněhu, moče, vzpomínek, minut, vlastního světla...//) najdeme sem tam nějakou peprnější, např. Hrabalovo //tratoliště básnických chcanek//. |
| |
V korpusech řady ORAL se toto slovo -- s jedinou výjimkou (//tratoliště drobků// v [[cnk:oral2008|ORAL2008]]) -- nevyskytuje (protože jsou mluvené korpusy nelemmatizované, patrně jste hledali slovní tvar ''tratolišt.*''). Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami? | Konečně v SYN2010 je situace obdobná: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]]. |
| |
2. Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]]. | V korpusu [[cnk:oral|ORAL v1]] se toto slovo -- s jedinou, o to však půvabnější výjimkou, za niž by se nemusel stydět ani Hrabal (// ...eště si ho vodšoupne jako dál a žere a tam prostě pod nim **tratoliště drobků**, a já na něj koukám a řikám Láďo proč si myslíš že sem ti tam dala ten talíř?//) -- nevyskytuje. Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami? |
| |
| **2.** Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_„slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]]. |
| |
Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu **lc** najdeme jen dva společné: //teprve// a //už//. Synonymní //již// je vyhrazeno skoro výlučně lemmatu //nyní//, což může být důsledek toho, že jak //nyní//, tak //již// mají příznak knižnosti. | Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu **lc** najdeme jen dva společné: //teprve// a //už//. Synonymní //již// je vyhrazeno skoro výlučně lemmatu //nyní//, což může být důsledek toho, že jak //nyní//, tak //již// mají příznak knižnosti. |
Publicistické texty z roku 2001 pokrývá korpus [[cnk:syn2005|SYN2005]], zvolíme si proto ten a zadáme v něm tento CQL dotaz: ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />''. Většina z 31 případů se týká právě newyorských mrakodrapů, manuální filtrací nežádoucích výskytů (pomocí volby **Výběr řádků → Odstranit z výsledku vybrané řádky**) by vám mělo zůstat [[https://kontext.korpus.cz/view?q=~MbHCmhfq&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&viewmode=kwic&|těchto 22 výskytů]]. Trvalý subkorpus vytvoříte obdobně zformulovaným dotazem, měl by mít přes 7,8 milionů pozic. Pro kontrolu v něm zkuste zadat první část výše uvedeného dotazu, tedy ''[lemma=%%"(?i)dvojče" & word="D.*"%%]'', opět by vám mělo vyjít 31 výsledků. | Publicistické texty z roku 2001 pokrývá korpus [[cnk:syn2005|SYN2005]], zvolíme si proto ten a zadáme v něm tento CQL dotaz: ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />''. Většina z 31 případů se týká právě newyorských mrakodrapů, manuální filtrací nežádoucích výskytů (pomocí volby **Výběr řádků → Odstranit z výsledku vybrané řádky**) by vám mělo zůstat [[https://kontext.korpus.cz/view?q=~MbHCmhfq&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&viewmode=kwic&|těchto 22 výskytů]]. Trvalý subkorpus vytvoříte obdobně zformulovaným dotazem, měl by mít přes 7,8 milionů pozic. Pro kontrolu v něm zkuste zadat první část výše uvedeného dotazu, tedy ''[lemma=%%"(?i)dvojče" & word="D.*"%%]'', opět by vám mělo vyjít 31 výsledků. |
| |
Publicistiku z roku 2011 najdeme v korpusu [[cnk:syn2015|SYN2015]]. První část dotazu zůstane stejná (tzn. hledáme lemma //dvojče//, které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací, je tedy zapotřebí zapsat dotaz ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <doc txtype_group=%%"NMG.*" & pubyear="2011"%% />''. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit 3., 8., 10., 11. a poslední případ, zůstane tak pouze [[https://kontext.korpus.cz/view?q=~xsN03OB8&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 9 výskytů]]. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů. | Publicistiku z roku 2011 najdeme v korpusu [[cnk:syn2015|SYN2015]]. První část dotazu zůstane stejná (tzn. hledáme lemma //dvojče//, které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací, je tedy zapotřebí zapsat dotaz ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <doc txtype_group=%%"NMG.*" & pubyear="2011"%% />''. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit 5 nerelevantních případů, zůstane tak pouze [[https://kontext.korpus.cz/view?q=~xsN03OB8&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 9 výskytů]]. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů. |
| |
Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu dotazem na **Lemma** ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). | Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu jednoduchým dotazem (s aktivovanými regulárními výrazy a výchozím atributem **lemma**) ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). |
| |
V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (podtrženy jsou případy, jež nás zajímají): | V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (červeně zvýrazněny jsou případy, jež nás zajímají): |
^ Lemma ^ 2001pub ^ 2011pub ^ | ^ Lemma ^ 2001pub ^ 2011pub ^ |
^ tunel | 233 | 245 | | ^ tunel | 233 | 245 | |
^ __tunelář__ | 29 | 3 | | ^ <fc #ff0000>tunelář</fc> | 29 | 3 | |
^ __tunelování__ | 25 | 15 | | ^ <fc #ff0000>tunelování</fc> | 25 | 15 | |
^ __vytunelovaný__ | 10 | 6 | | ^ <fc #ff0000>vytunelovaný</fc> | 10 | 6 | |
^ __vytunelování__ | 9 | 5 | | ^ <fc #ff0000>vytunelování</fc> | 9 | 5 | |
^ __vytunelovat__ | 9 | 1 | | ^ <fc #ff0000>vytunelovat</fc> | 9 | 1 | |
^ __tunelovat__ | 8 | 4 | | ^ <fc #ff0000>tunelovat</fc> | 8 | 4 | |
^ tunelový | 8 | 10 | | ^ tunelový | 8 | 10 | |
^ __tunelovaný__ | 1 | 0 | | ^ <fc #ff0000>tunelovaný</fc> | 1 | 0 | |
^ tunelovitý | 1 | 0 | | ^ tunelovitý | 1 | 0 | |
^ __tuneláž__ | 0 | 1 | | ^ <fc #ff0000>tuneláž</fc> | 0 | 1 | |
^ nano-tunel | 0 | 1 | | ^ nano-tunel | 0 | 1 | |
^ Eurotunel | 0 | 1 | | ^ Eurotunel | 0 | 1 | |
| |
| Vidíme, že s jedinou výjimkou (//tunelář//) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v [[pojmy:txtype_group|jiných typech textů]], byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty: |
| |
| //Veřejnost, která volá po tvrdší odplatě za činy zlosynů, //tunelujících// a plenících naši zem.// (SYN2005) |
| |
Vidíme, že s jedinou výjimkou (//tunelář//) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou míru etablovanosti daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v jiných typech textů. Vyhledávání stejného slovního základu (možno též typem dotazu **Podřetězec** ''tunel'') v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty: | [...] //moskevská prokuratura ho má za obyčejného //velkotuneláře// a neúspěšně žádala jeho vydání.// (SYN2005) |
| |
podtunelovaný (1) -- A do toho strach, že jsou podtunelovaný další banky a že je jen otázka času, kdy se zhroutěj. (SYN2015) | //Václav Havel v Rudolfinu s vážnou tváří pronesl, že "ekonomická základna je //protunelovaná//, protože se nevyvíjela v řádu Božích přikázání".// (SYN2005) |
| |
vytunelovávání (1) -- Úřady znovu vyšetřují jeho podíl na vytunelovávání CS Fondů a okolnostech, za kterých získal MUS. (SYN2015) | //A do toho strach, že jsou //podtunelovaný// další banky a že je jen otázka času, kdy se zhroutěj.// (SYN2015) |
| |
supertunelář (1) -- ... po letech vrátila bodrý úsměv řadě supertunelářů, šéfů H-systému a velkozlodějů všeho druhu. (SYN2015) | //Úřady znovu vyšetřují jeho podíl na //vytunelovávání// CS Fondů a okolnostech, za kterých získal MUS.// (SYN2015) |
| |
Jak však ukazují jiné odvozeniny (tunelovací, protunelovat atd.), jejichž výskyt je omezen téměř výlučně na odborné texty, bylo rozumné dané aktualizace hledat pouze v subkorpusu publicistických textů. | [...] //po letech vrátila bodrý úsměv řadě //supertunelářů//, šéfů H-systému a velkozlodějů všeho druhu.// (SYN2015) |
| |