Nastavení

Řešení úkolů

Zde najdete řešení úloh ze všech lekcí z Kurzu práce s ČNK.

Lekce 1

V korpusu SYN2015 bylo nalezeno 15 výskytů adjektiva nejneobvyklejší, z toho jednou se daný tvar nachází na začátku věty (je s velkým počátečním písmem). Výsledná obrazovka by měla vypadat takto:

Lemma obvyklý se v tomtéž korpusu vyskytuje 9134krát:

Lekce 2

V korpusu SYN2015 byste měli najít tyto údaje:

  • 8479 výskytů lemmatu vědomívýsledek zde
  • 7196 výskytů tvaru vědomí přesně v této podobě – výsledek zde
  • zdrojový jazyk: např. es: španělština, cs: čeština nebo en: angličtina
  • překladatel: např. Jungmannová, Marie, Válková, Marie nebo Hanuš, Jiří
  • autor: např. Amat, Núria, Brown, Sandra či Eganová, Jennifer

Lekce 3

  • Podřetězec pes se v korpusu SYN2015 vyskytuje celkem 15 581krát (typ dotazu: Slovní tvar; zaškrtnuta volba Shoda velikosti). Frekvenční distribuce lemmat je následující:
  • Frekvenční distribuce všech předložek předcházejících lemmatu vědomí získáme analogickým postupem, jakým jsme hledali příslovce rozvíjející dvojici adjektiv proslulý a věhlasný, tzn. pomocí atributu pos a pozice 1L v menu Frekvence → Vlastní. Zajímat nás bude hned první řádek (prepozice jsou značeny zkratkou R), na nějž aplikujeme pozitivní filtr a provedeme opět frekvenční distribuci výrazů v pozici 1L, tentokrát však s atributem lemma. Výsledek v korpusu SYN2010 by měl vypadat takto:
Frekvenční distribuce předložek předcházejících lemmatu vědomí v SYN2010
  • Nakonec jsme se pokusili odhalit, jak se liší výskyt výplňového slova vole v mluvě mužů a žen. Výsledky shrnuje následující tabulka:
mluvený korpus absol. frekvence vole relat. frekvence (ipm) muži ipm ženy ipm
ORAL2006 684 521 1369 147
ORAL2008 1343 995 1732 269
ORAL2013 3552 1081 1975 152

Můžeme rozhodně vyvodit závěr, že mužům je vole v mluvě mnohem bližší nežli ženám. Ale co s těmi značnými rozdíly v relativní frekvenci při srovnávání jednotlivých korpusů (téměř poloviční výskyt v jednom korpusu ve srovnání s dvěma ostatními)? Více mohou napovědět třeba podrobné informace o korpusu ORAL2006 a ORAL2008, někdy je však velmi těžké na příčinu podobných rozdílů přijít.

Lekce 4

Hledáme v korpusu SYN2015.

Slova obsahující sekvenci -kořen-, po níž následuje a jíž předchází alespoň jeden znak

Typ dotazu: Lemma

Dotaz: .+kořen.+

Pozn.: V dotazu je třeba použít sekvenci .+, protože v zadání je uvedeno, že předcházet i následovat musí alespoň jeden znak. Z toho důvodu nelze použít sekvenci .*, protože ta odpovídá i nulovému řetězci.

Počet výsledků: 1749

Nejfrekventovanější výsledky (lemmata): zakořeněný (382), zakořenit (323), okořenit (299), pokoření (160), okořeněný (142), pokořený (82)…

Infinitivy odvozené od slovesa téct/téci s prefixem

Typ dotazu: Slovní tvar

Dotaz: .+téc[it]

Pozn.: Při vyhodnocování dotazu se může objevit hlášení, že zvolený a faktický typ dotazu nesouhlasí, které lze ignorovat a dotaz normálně vyhodnotit.

Počet výsledků: 1997

Nejfrekventovanější výsledky (word, case-sensitive): utéct (1581), utéci (226), Utéct (41), odtéct (24), protéct (15), přitéct (14), vytéct (12), stéct (10)…

Tvary negativního superlativu (pouze nom. sg.)

Typ dotazu: Slovní tvar

Dotaz: nejne.+[šč]í (stejný výsledek v tomto korpusu dostaneme i při zadání nejne.*[šč]í

Pozn.: Při vyhodnocování dotazu se může objevit hlášení, že zvolený a faktický typ dotazu nesouhlasí, které lze ignorovat a dotaz normálně vyhodnotit.

Počet výsledků: 751

Nejfrekventovanější výsledky (word, case-sensitive): nejnebezpečnější (220), Nejnebezpečnější (41), nejnevhodnější (38), nejnepříjemnější (34), nejnepatrnější (27), nejneuvěřitelnější (24), nejnevinnější (19), nejnemožnější (18)…

Lekce 5

1. Nejprve hledáme aktualizace přísloví těžko na cvičišti, lehko na bojišti. Pohled do korpusu SYN2015 příliš zajímavý není, na dotaz [word="cvičišti"][]{1,10}[word="bojišti"] dostaneme těchto 14 výskytů, z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2013PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na od -2 do -2, zrušíme volbu včetně KWIC a typ dotazu nastavíme na Slovní tvar, načež vepíšeme nejběžnější formu na dané pozici (2L): těžko|těžce. Výsledkem by měla být tato konkordance, z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i varianta obrácená (zde stačilo jen v dotazu prohodit oba slovní tvary).

2. Dále nás zajímaly kletby odvozené od slovního spojení Herr Gott a dostupné prostřednictvím korpusu ORAL2013. Nejprve zkusíme dosáhnout co nejvyšší hodnoty recall pomocí [word=".*her.*"]1), ovšem výrazy typu nádhera ukazují, že umístění základu her doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný hermelín a herce s herečkami -– možný dotaz vypadá takto: [word="her[^cme][^cč].*"]. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně heren a herních odvozenin. Jak je vyřadit, když hlásku n musíme ponechat kvůli hernajs? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích – kvantifikátor * nahradíme kvatifikátorem + a zadáme dotaz v této podobě: [word="her[^cme][^cč].+"]. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (Frekvence → Slovní druhy). Zajímavé je, že mezi nimi figuruje pouze hergot (27krát) a jedno hernajs. O něco pestřejší je situace v ORAL2006.

Lekce 6

1. Začněme pohledem do aktuálního synchronního korpusu psané češtiny SYN2015. Hledáme v něm lemma tratoliště, které se tu vyskytuje 61krát, odfiltrujeme však všechna užití tratoliště krve. V menu zvolíme Filtr → Negativní, rozsah hledání upravíme na od 1 do 1 (jde nám o bezprostřední pravostranný kolokát), jako typ dotazu zvolíme Lemma a do řádku vepíšeme dotaz krev. Zredukovaná konkordance odhalí ještě dva případy, kdy je substantivum krev rozvito adjektivem vlastní, bude tedy lepší rozšířit rozsah hledání na od 1 do 2.

Po odfiltrování by nám mělo zbýt těchto 19 výskytů. Patrně nás nepřekvapí, že s výjimkou jediného případu pocházejí všechny z beletrie. Vedle metafor krotčejších (tratoliště voleje, rozbředlého sněhu, moče, vzpomínek, minut, vlastního světla…) najdeme sem tam nějakou peprnější, např. Hrabalovo tratoliště básnických chcanek.

V SYN2010 je situace obdobná: lemma tratoliště se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení v tratolišti krve – v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude těchto 8 případů.

V korpusech řady ORAL se toto slovo – s jedinou výjimkou (tratoliště drobků v ORAL2008) – nevyskytuje (protože jsou mluvené korpusy nelemmatizované, patrně jste hledali slovní tvar tratolišt.*). Ovšem ruku na srdce, kdy naposledy jste o tratolišti hovořili vy sami?

2. Porovnáváme kolokační profily adverbií teď a nyní a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů teď oproti 34 570 výskytům nyní – první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu teďkon(c), teďka apod., které si lze dohledat zde). Mimochodem, obdobné výsledky získáte i pomocí nástroje SyD.

Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu lc najdeme jen dva společné: teprve a . Synonymní již je vyhrazeno skoro výlučně lemmatu nyní, což může být důsledek toho, že jak nyní, tak již mají příznak knižnosti.

Pořadí podle logDice Kolokáty nyní Kolokáty teď
1. již
2. právě
3. teprve ale
4. čeká tady
5. však když
6. žije teprve
7. pracuje zrovna
8. hrozí ?
9. máme mám
10. je co

Povšimněte si rovněž, že mezi nejčastějšími kolokáty lexému teď převažují slova gramatická, kdežto u jeho protějšku je daleko více slov plnovýznamových (autosémantik). Viditelná je zejména preference sloves pojit se s nyní (v první desítce jich objevíme hned 6), zatímco teď má ve svém okolí spíš modifikátory (adverbia a částice).

Přesnou povahu kolokací zjistíme kliknutím na modře zvýrazněný pozitivní filtr (p). Tímto způsobem např. ověříme, že slovo se objevuje jak na levé, tak na pravé straně obou adverbií, kdežto jiná slova téměř výhradně na jedné straně (teprve teď/nyní). Lexém tady se kombinuje většinou s teď, a to ve spojení tady a teď (331krát), ale i teď a tady (120) – zato v úzkém spojení s nyní se vyskytuje jen ojediněle (po 1 případu tady a nyní a nyní a tady).

Lekce 7

Publicistické texty z roku 2001 pokrývá korpus SYN2005, zvolíme si proto ten a zadáme v něm tento CQL dotaz: [lemma="(?i)dvojče" & word="D.*"] within <opus txtype="PUB" & rokvyd="2001" />. Většina z 31 případů se týká právě newyorských mrakodrapů, manuální filtrací nežádoucích výskytů (pomocí volby Výběr řádků → Odstranit z výsledku vybrané řádky) by vám mělo zůstat těchto 22 výskytů. Trvalý subkorpus vytvoříte obdobně zformulovaným dotazem, měl by mít přes 7,8 milionů pozic. Pro kontrolu v něm zkuste zadat první část výše uvedeného dotazu, tedy [lemma="(?i)dvojče" & word="D.*"], opět by vám mělo vyjít 31 výsledků.

Publicistiku z roku 2011 najdeme v korpusu SYN2015. První část dotazu zůstane stejná (tzn. hledáme lemma dvojče, které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací, je tedy zapotřebí zapsat dotaz [lemma="(?i)dvojče" & word="D.*"] within <doc txtype_group="NMG.*" & pubyear="2011" />. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit 3., 8., 10., 11. a poslední případ, zůstane tak pouze těchto 9 výskytů. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů.

Aktualizace lexému tunel hledáme pomocí dotazu [lemma=".*tunel.*"] within <opus txtype="PUB" & rokvyd="2001" />, případně v již vytvořeném subkorpusu dotazem na Lemma .*tunel.*. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo tunel si ve většině případů ponechává svůj původní význam, jeho odvozeniny už mají většinou význam přenesený (až na výjimky typu podtunelování – odborný termín, Eurotunel – jméno firmy apod.).

V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (červeně zvýrazněny jsou případy, jež nás zajímají):

Lemma 2001pub 2011pub
tunel 233 245
tunelář 29 3
tunelování 25 15
vytunelovaný 10 6
vytunelování 9 5
vytunelovat 9 1
tunelovat 8 4
tunelový 8 10
tunelovaný 1 0
tunelovitý 1 0
tuneláž 0 1
nano-tunel 0 1
Eurotunel 0 1

Vidíme, že s jedinou výjimkou (tunelář) jsou počty dokladů přibližně stejné, což signalizuje dostatečnou etablovanost daného významu v tuzemské publicistice za posledních 15 let. Zajímavé doklady však najdeme též v jiných typech textů, byť tam převažuje původní význam slova. Vyhledávání stejného slovního základu (možno též typem dotazu Podřetězec tunel) v celém korpusu SYN2005, resp. SYN2015 odhalí např. tyto další deriváty:

Veřejnost, která volá po tvrdší odplatě za činy zlosynů, tunelujících a plenících naši zem. (SYN2005)

[…] moskevská prokuratura ho má za obyčejného velkotuneláře a neúspěšně žádala jeho vydání. (SYN2005)

Václav Havel v Rudolfinu s vážnou tváří pronesl, že „ekonomická základna je protunelovaná, protože se nevyvíjela v řádu Božích přikázání“. (SYN2005)

A do toho strach, že jsou podtunelovaný další banky a že je jen otázka času, kdy se zhroutěj. (SYN2015)

Úřady znovu vyšetřují jeho podíl na vytunelovávání CS Fondů a okolnostech, za kterých získal MUS. (SYN2015)

[…] po letech vrátila bodrý úsměv řadě supertunelářů, šéfů H-systému a velkozlodějů všeho druhu. (SYN2015)

1) Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu podřetězec a jako hledanou sekvenci vyplnili her.