AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Řešení úkolů

Zde najdete řešení úloh ze všech lekcí z Kurzu práce s ČNK.

Lekce 1

V korpusu SYN2015 bylo nalezeno 15 výskytů adjektiva nejneobvyklejší, z toho jednou se daný tvar nachází na začátku věty (je s velkým počátečním písmem). Výsledná obrazovka by měla vypadat takto:

Lemma obvyklý se v tomtéž korpusu vyskytuje 9134krát:

Lekce 2

V korpusu SYN2015 byste měli najít tyto údaje:

  • 8479 výskytů lemmatu vědomívýsledek zde
  • 7196 výskytů tvaru vědomí přesně v této podobě – výsledek zde
  • zdrojový jazyk: např. es: španělština, cs: čeština nebo en: angličtina
  • překladatel: např. Jungmannová, Marie, Válková, Marie nebo Hanuš, Jiří
  • autor: např. Amat, Núria, Brown, Sandra či Eganová, Jennifer

Lekce 3

  • Podřetězec pes se v korpusu SYN2015 vyskytuje celkem 15 581krát, frekvenční distribuce lemmat je následující:
FIXME
  • Frekvenční distribuce všech předložek předcházejících lemmatu vědomí získáme analogickým postupem, jakým jsme hledali příslovce rozvíjející dvojici adjektiv proslulý a věhlasný, tzn. pomocí atributu pos a pozice 1L v menu Frekvence → Vlastní. Zajímat nás bude hned první řádek (prepozice jsou značeny zkratkou R), na nějž aplikujeme pozitivní filtr a provedeme opět frekvenční distribuci výrazů v pozici 1L, tentokrát však s atributem lemma. Výsledek v korpusu SYN2010 by měl vypadat takto:
Frekvenční distribuce předložek předcházejících lemmatu vědomí v SYN2010
  • Nakonec jsme se pokusili odhalit, jak se liší výskyt výplňového slova vole v mluvě mužů a žen. Výsledky shrnuje následující tabulka:
mluvený korpus absol. frekvence vole relat. frekvence (ipm) muži ipm ženy ipm
ORAL2006 684 521 1369 147
ORAL2008 1343 995 1732 269
ORAL2013 3552 1081 1975 152

Můžeme rozhodně vyvodit závěr, že mužům je vole v mluvě mnohem bližší nežli ženám. Ale co s těmi značnými rozdíly v relativní frekvenci při srovnávání jednotlivých korpusů (téměř poloviční výskyt v jednom korpusu ve srovnání s dvěma ostatními)? Více mohou napovědět třeba podrobné informace o korpusu ORAL2006 a ORAL2008, někdy je však velmi těžké na příčinu podobných rozdílů přijít.

Lekce 4

Hledáme v korpusu SYN2015.

Slova obsahující sekvenci -kořen-, po níž následuje a jíž předchází alespoň jeden znak

Typ dotazu: Lemma

Dotaz: .+kořen.+

Pozn.: V dotazu je třeba použít sekvenci .+, protože v zadání je uvedeno, že předcházet i následovat musí alespoň jeden znak. Z toho důvodu nelze použít sekvenci .*, protože ta odpovídá i nulovému řetězci.

Počet výsledků: 1749

Nejfrekventovanější výsledky (lemmata): zakořeněný (382), zakořenit (323), okořenit (299), pokoření (160), okořeněný (142), pokořený (82)…

Infinitivy odvozené od slovesa téct/téci s prefixem

Typ dotazu: Slovní tvar

Dotaz: .+téc[it]

Pozn.: Při vyhodnocování dotazu se může objevit hlášení, že zvolený a faktický typ dotazu nesouhlasí, které lze ignorovat a dotaz normálně vyhodnotit.

Počet výsledků: 1997

Nejfrekventovanější výsledky (word, case-sensitive): utéct (1581), utéci (226), Utéct (41), odtéct (24), protéct (15), přitéct (14), vytéct (12), stéct (10)…

Tvary negativního superlativu (pouze nom. sg.)

Typ dotazu: Slovní tvar

Dotaz: nejne.+[šč]í (stejný výsledek v tomto korpusu dostaneme i při zadání nejne.*[šč]í

Pozn.: Při vyhodnocování dotazu se může objevit hlášení, že zvolený a faktický typ dotazu nesouhlasí, které lze ignorovat a dotaz normálně vyhodnotit.

Počet výsledků: 751

Nejfrekventovanější výsledky (word, case-sensitive): nejnebezpečnější (220), Nejnebezpečnější (41), nejnevhodnější (38), nejnepříjemnější (34), nejnepatrnější (27), nejneuvěřitelnější (24), nejnevinnější (19), nejnemožnější (18)…

Lekce 5

1. Nejprve hledáme aktualizace přísloví těžko na cvičišti, lehko na bojišti. Pohled do korpusu SYN2015 příliš zajímavý není, na dotaz [word="cvičišti"][]{1,10}[word="bojišti"] dostaneme těchto 14 výskytů, z nichž aktualizací jsou jen první a pátý. O něco zajímavější data nalezneme v SYN2009PUB, týž dotaz najde 152 případů. Zde už bude vhodné uplatnit negativní filtr, rozsah hledání nastavíme na od -2 do -2, zrušíme volbu včetně KWIC a typ dotazu nastavíme na Slovní tvar, načež vepíšeme nejběžnější formu na dané pozici (2L): těžko|těžce. Výsledkem by měla být tato konkordance, z níž je patrné, že toto přísloví má stabilnější formu a je daleko méně náchylné k modifikacím než to o vlku a koze. Doložena je nicméně i varianta obrácená (zde stačilo jen v dotazu prohodit oba slovní tvary).

2. Dále nás zajímaly kletby odvozené od slovního spojení Herr Gott a dostupné prostřednictvím korpusu ORAL2013. Nejprve zkusíme dosáhnout co nejvyšší hodnoty recall pomocí [word=".*her.*"]1), ovšem výrazy typu nádhera ukazují, že umístění základu her doprostřed hledaného řetězce k ideálnímu výsledku nepovede. Potřebujeme také eliminovat frekventovaný hermelín a herce s herečkami -– možný dotaz vypadá takto: [word="her[^cme][^cč].*"]. Výsledných 65 výskytů se jeví lépe, ovšem stále obsahuje hodně heren a herních odvozenin. Jak je vyřadit, když hlásku n musíme ponechat kvůli hernajs? Vyloučíme alespoň frekventované nejkratší tvary tím, že nás budou zajímat pouze výrazy o šesti a více znacích – kvantifikátor * nahradíme kvatifikátorem + a zadáme dotaz v této podobě: [word="her[^cme][^cč].+"]. Zbývajících 41 případů už snadno vyfiltrujeme manuálně pomocí okének na začátku příslušných konkordančních řádků, nepotřebujeme-li ale výsledná data ukládat či s nimi dále pracovat, postačí pohled na frekvenční distribuci tvarů (Frekvence → Slovní druhy). Zajímavé je, že mezi nimi figuruje pouze hergot (27krát) a jedno hernajs. O něco pestřejší je situace v ORAL2006.

Lekce 6

1. Začněme pohledem do aktuálního synchronního korpusu psané češtiny SYN2015. Hledáme v něm lemma tratoliště, které se tu vyskytuje 61krát, odfiltrujeme však všechna užití tratoliště krve. V menu zvolíme Filtr → Negativní, rozsah hledání upravíme na od 1 do 1 (jde nám o bezprostřední pravostranný kolokát), jako typ dotazu zvolíme Lemma a do řádku vepíšeme dotaz krev. Zredukovaná konkordance odhalí ještě dva případy, kdy je substantivum krev rozvito adjektivem vlastní, bude tedy lepší rozšířit rozsah hledání na od 1 do 2.

Po odfiltrování by nám mělo zbýt těchto 19 výskytů. Patrně nás nepřekvapí, že s výjimkou jediného případu pocházejí všechny z beletrie. Vedle metafor krotčejších (tratoliště voleje, rozbředlého sněhu, moče, vzpomínek, minut, vlastního světla…) najdeme sem tam nějakou peprnější, např. Hrabalovo tratoliště básnických chcanek.

V SYN2010 je situace obdobná: lemma tratoliště se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení v tratolišti krve – v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude těchto 8 případů.

V korpusech řady ORAL se toto slovo – s jedinou výjimkou (tratoliště drobků v ORAL2008) – nevyskytuje (protože jsou mluvené korpusy nelemmatizované, patrně jste hledali slovní tvar tratolišt.*). Ovšem ruku na srdce, kdy naposledy jste o tratolišti hovořili vy sami?

2. Porovnáváme kolokační profily adverbií teď a nyní a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů teď oproti 34 570 výskytům nyní – první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu teďkon(c), teďka apod., které si lze dohledat zde). Mimochodem, obdobné výsledky získáte i pomocí nástroje SyD.

Závěrů, které lze z kolokační analýzy odvodit, je celá řada. Vybereme si proto jen ty nejviditelnější. Na první pohled upoutá fakt, že v první desítce kolokátů podle atributu lc najdeme jen dva společné: teprve a . Synonymní již je vyhrazeno skoro výlučně lemmatu nyní, což může být důsledek toho, že jak nyní, tak již mají příznak knižnosti.

Pořadí podle logDice Kolokáty nyní Kolokáty teď
1. již
2. právě
3. teprve ale
4. čeká tady
5. však když
6. žije teprve
7. pracuje zrovna
8. hrozí ?
9. máme mám
10. je co

Povšimněte si rovněž, že mezi nejčastějšími kolokáty lexému teď převažují slova gramatická, kdežto u jeho protějšku je daleko více slov plnovýznamových (autosémantik). Viditelná je zejména preference sloves pojit se s nyní (v první desítce jich objevíme hned 6), zatímco teď má ve svém okolí spíš modifikátory (adverbia a částice).

Přesnou povahu kolokací zjistíme kliknutím na modře zvýrazněný pozitivní filtr (p). Tímto způsobem např. ověříme, že slovo se objevuje jak na levé, tak na pravé straně obou adverbií, kdežto jiná slova téměř výhradně na jedné straně (teprve teď/nyní). Lexém tady se kombinuje většinou s teď, a to ve spojení tady a teď (331krát), ale i teď a tady (120) – zato v úzkém spojení s nyní se vyskytuje jen ojediněle (po 1 případu tady a nyní a nyní a tady).

Lekce 7

Beletrie po roce 1990

v korpusu SYN jsme hledali:

  • Podmínku omezující rok vydání určitého žánru na „beletrii vydanou po roce 1990“

Jak na to? Nejprve pomocí klikatelného rozhraní vložte příslušné podmínky:

 Podmínka: textovým typem je beletrie

Obdobně následuje podmínka roku vydání – rokvyd.

Posléze před rokvyd="1990" doplňte ještě znaménko pro „větší nebo rovno“ (to, že v rozhraní KonText fungují tyto operátory, umožní nevypisovat každý rok zvlášť).

V posledním kroku je třeba doplnit zadání: co se má v daném subkorpusu vyhledat? Zkusit lze i prázdnou pozici ([]), vyhledání všech pozic v daném subkorpusu ovšem trvá velmi dlouho. Další nástrahou je pak i skutečnost, že je nutné spojit vícečetné podmínky – pomocí operátoru &, který jsme si ukazovali v sekci o CQL. Výsledný dotaz na libovolné lemma (např. „pravice“) pak může vypadat takto:

  • [lemma="pravice"] within <opus txtype_group="beletrie" & rokvyd>="1990" />
  • Výsledky pro SYN: 1741 dokladů. Jak rozlišit, které z nich odkazují třeba k podané pravici a které k politickému uskupení, si ukážeme v dnešní lekci.
Vyhledávání prázdné pozice a nespojené podmínky
Vyhledání lemmatu pravice a spojení dvou podmínek

Konce vět v české beletrii

  • Druhý úkol, tvary sloves na koncích vět v české beletrii, lze vyhledat pomocí našeho dříve vytvořeného subkorpusu na základě SYN2010 (BELcs).
  • Rozhodneme-li se hledat pouze slovesa následovaná interpunkcí, může dotaz vypadat takto: [tag="V.*"][tag="Z.*"]</s>.2) Výskytů je, jak je vidět, požehnaně (209 554 vět splňujících tuto podmínku) a frekvence nám kupříkladu umožní porovnat např. podíl vět oznamovacích, tázacích a zvolacích – jen distribuci musíme vytvořit na první pozici vpravo, 1P (tedy v případě, že se KWIC začíná počítat od pozice nejvíc vlevo).
Vyhledávání vět ukončených slovesy v beletrii
Frekvenční distribuce interpunkce na konci věty po slovese

Hledáme rozdíly mezi kolokáty v závislosti na textovém typu, v němž se vyhledává. Konkrétním příkladem je výzkum úzu polysémního lemmatu pravice:

  • V publicistice zní podmínka vymezující subkorpus takto: txtype_group="publicistika" 3) a vymezuje v korpusu SYN přes čtyřicet tisíc výskytů daného výrazu.4) Nebyl zohledněn zdrojový jazyk, protože do řady SYN zařazená publicistika je původně česká (občasnou přítomnost překladového textu např. v českých týdenících v současnosti není možné identifikovat).

Výsledky: 43 800 výskytů lemmatu pravice umožňuje vygenerovat kolokace slovních tvarů vyhledávané v rámci okna +/- 3 a setříděné podle míry logDice. Jako nejprominentnější kolokace se ukazují slovní tvary krajní, levice, levicí, levici, extrémní, až na 6. místě je tvar zdviženou – tj. odkaz k reálně pozdvihnuté paži. Typický doklad pro kolokaci pravice s levicí pak vypadá takto: Ať v nadcházejících volbách zvítězí pravice nebo levice, občany i v budoucnu čeká zdražování 5). Až na 23. pozici je odkaz k dalšímu konkrétnímu, nikoli abstraktnímu užití, a sice kolokát vztyčenou.

  • V beletrii publikované po roce 1990 zní podmínka takto: txtype_group="publicistika" & rokvyd>="1990", pro eliminaci možných překladových interferencí jsme si vytvořili ještě subkorpus původně českých textů se 784 výskyty lemmatu pravice 6). Nejvýraznějším kolokátem je tvar napřaženou, následuje Zasedni, potřásl, potřásají. Po těchto slovesných tvarech je na 5. místě tvar levici a na 6. tvar podávanou, na 7. nalezneme Všemohoucího, na 8. a 9. pozici zdviženou a vztyčenou.

Srovnání beletrie a publicistiky na základě kolokačních profilů lemmatu pravice ukazuje tendenci k užívání konkrétního významu dané formy v krásné literatuře a naopak užívání přeneseného, abstrahovaného významu popisujícího politické proudy v novinových textech.

  • V odborných textech – nepřekladová, originální čeština o rozsahu 68 354 786 tokenů obsahuje 440 dokladů.7) V tomto subkorpusu jsou zastoupeny mj. religionistické texty: tím se do první dvacítky kolokujících tvarů dostalo adjektivum Boží: sedí na pravici Boží. V důsledku zařazení hudebního časopisu Folk & Country zase jako výrazný kolokát figuruje tvar zvedni – čím to? V r. 1993 si totiž nejmenovaná politická strana (…) vybrala píseň Pavla Žalmana Lohonky Zvedni pravici s plnou sklenicí za svoji volební hymnu. Je patrné, že souborná kolokační analýza odborných textů je ztížena jejich různorodostí a přínosné by bylo zkoumat užití v jednotlivých žánrech či rejstřících.
  • Na závěr: rozdíl užití v beletrii před a po r. 1990 – srovnání kolokátů splňujících podmínku within <opus rokvyd⇐"1989"/> s kolokáty porevolučními je obtížné, protože v původní češtině je k dispozici pouhých 52 výskytů 8), tudíž vyvstávají pouze kolokace po (jeho) pravici a (podal) mu pravici. Pomocí funkcionality pro výběr jednotlivých řádků bychom mohli snadno manuálně vytřídit abstraktní užití odkazující k politickému proudu, ale není to potřeba: nevyskytne se ani jednou. V hlavní tendenci k užití konkrétního významu se tedy předrevoluční a porevoluční výsledky shodují, v čem se zjevně liší je absence kolokátů na/po pravici Boží/Všemohoucího v publikacích vydaných za komunismu. Ta se zdá být zapříčiněná dobou vzniku textů, ale kvůli malému počtu dokladů to nelze tvrdit s jistotou.

Můžeme ještě nějak jinak porovnat výsledky založené na tak rozdílné velikosti dat? Pomocí i.p.m. můžeme přinejmenším ověřit, zda nedošlo přímo k řádové proměně v užívání daného lemmatu, ovšem velký pozor musíme dát na to, na jakém datovém souboru je automaticky vypočítané i.p.m. založené. Pokud si totiž vytvoříme např. subkorpus z textového typu (BELcs), a další vyhledávání omezíme pouze podmínkou vloženou do CQL dotazu (před r. 1990), vypočítává se i.p.m. z celého subkorpusu. Pro správný výpočet relativní frekvence jevu je tedy nutné vytvořit subkorpus splňující veškeré vymezující podmínky, nelze se spokojit s podmínkou naklikanou při pokládání dotazu.

V případě předlistopadové české beletrie je tedy nutné vytvořit subkorpus na základě vlastní podmínky rokvyd⇐"1989" & txtype_group="beletrie" & srclang="CZE" 9) – i.p.m. pravice je 12,7 – a srovnat se subkorpusem vytvořeným pomocí totožného postupu lišícího se jen v rokvyd>="1990" 10), kde je i.p.m. totožného lemmatu 17,2. K řádové změně tedy nedošlo.

1)
Stejných výsledků bychom dosáhli, kdybychom použili typ dotazu podřetězec a jako hledanou sekvenci vyplnili her.
2)
Takto formulovaný dotaz však nachází pouze věty ukončené jedním interpunkčním znaménkem.
3)
Celý dotaz: [lemma="pravice"] within <opus txtype_group="publicistika" />
4) , 8)
11. 2. 2015
5)
MfD, 3.6.1998
6)
Náš subkorpus vytvořený na základě korpusu SYN 11. 2. 2015 se tudíž omezuje pouze na beletrii splňující podmínku srclang="CZE" a má velikost 49 647 612 tokenů.
7)
Subkorpus byl utvořen na základě korpusu SYN k 4. 5. 2014.
9)
11. 2. 2015 4 093 467 pozic
10)
11. 2. 2015 45 554 145 pozic