Skrýt
Nastavení

Toto je starší verze dokumentu!


Jak na výzkumné otázky

v manuálu chvala_korpusu jsme si postupně v sedmi lekcích ukázali, jak položit pokročilé dotazy pomocí dotazovacího jazyka a osvojili jsme si principy práce s regulárními výrazy, kombinacemi podmínek či třeba subkorpusy. Chcete-li se nechat provést všemi zásadními tématy souvisejícími s korpusovým výzkumem, nalistujte si právě manuál.

Tato stránka pak slouží k nastínění postupů používaných při řešení konkrétních výzkumných problémů na základě korpusových dat. Nečiní si nárok na úplnost, doufáme ale, že zde najdete inspiraci a pokud si s něčím i po prostudování manuálu nebudete vědět rady, kontaktujte nás!

Různé typy výzkumných otázek

  1. výzkum určitého jazyka (textový typ, žánr, autorský styl, doba…)
  2. výzkum určitých forem (slovního základu, formantů, odvozenin…)
  3. výzkum určitých kategorií (slovních druhů, informací obsažených v morfologických tazích…)
  4. výzkum určitého lineárního uspořádání (slovosledu, syntaxe, …)
  5. kontrastivní výzkum (na paralelních korpusech řady InterCorp)

1. výzkum určitého typu jazyka

K tomuto typu výzkumu využívejte buď subkorpus sestavený podle vámi zvolených kritérií, nebo zadejte dotaz pomocí podmínky (within).

Jazyk české x překladové beletrie

Pozor: Způsob výstavby korpusů řady SYN neumožňuje zaškrtnout u zdrojového jazyka jako kritérium výběru češtinu. Je to proto, že v SYNech nemá svou vlastní zkratku, pouze představuje defaultní volbu: není-li u atributu „srclang“, (source language, zdrojový jazyk), uvedena žádná hodnota, jedná se právě o češtinu. Jak si tedy zvolit pouze původně české, nepřekladové texty?

  1. Zvolte si korpus SYN, typ dotazu CQL.
  2. Zkoumaným jevem bude distribuce citoslovcí v překladech z angličtiny a původně českých textech.
  3. Zadejte dotaz: [tag=„I.*“] within <srclang=„“/> a [tag=„I.*“] within <srclang=„ENG“/>
  4. Porovnejte frekvenční distribuce (na lemmatu).

Výsledek: ….

Shrnutí - atribut srclang

  • V korpusech řady SYN je pro zkoumání čisté češtiny třeba vyhledávat zkoumaný jev v těch textech, které splňují podmínku within <srclang=„“/>.
  • V korpusech z paralelní řady zvané InterCorp už atribut srclang="cs" zanesený je. Všimněte si ale, že u hodnoty atributů záleží i na velikosti písmen:

Autorský jazyk

- nástrahy zadávání cizích jmen: Virginia Woolf a Woolfová, více Karlů Čapků, hledání v SYNu versus v InterCorpu

Jazyk určité doby

- vytváření subkorpusu jazyka 19. / 1.pol. 20. stol. pozor na kolizi 1. vydání X námi zařazené vydání

Jazyk určitého regionu

Lze zkoumat na mluveném jazyce, ORAL 2013 - i Morava

„To se nechá koupit…“ pytlovina pletýnka su rožnout toto x tohle x …

Sociolingvistické proměnné: učitelé, žáci a věk

Je pozorovatelný rozdíl v používání vágních výplňových výrazů v závislosti na věku a vzdělání? 1) [word="vlastně"] within <sp vek_u>="1" /> Frekvenční rozdělení podle věku naleznete po přihlášení zde.

Osoby Věk Počet výskytů vlastně v i.p.m.
Učitelé do 30 1140
31–40 513
41–50 653
51–60 1228

Vysoký podíl výskytů vlastně v nejstarší věkové skupině může souviset s rozdíly v dosaženém vzdělání, nejprve se podívejme jen na celkovou statistiku:

Učitelé Dosažené vzdělání Počet výskytů vlastně v i.p.m.
A - vyšší 813
B - nižší 458

A nyní upřesněme podmínky v dotazu pro vyšší (A) či nižší (B) vzdělání v určitém věku, například takto pro mluvčí starší 50 let s vyšším vzděláním: [word="vlastně"] within <sp vek_u>="50" /> within <sp vzdelani=„A“ />

A určitý věk:

2. výzkum určitých forem

Adjektivum ‘kách’ v současné češtině (SYN2010)

Z rakouské němčiny přejatý výraz pro rychle ještě úplně neupadl v zapomnění. Nejprve hledáme prosté [lemma=„kách“] a nalezneme např.: Ti druzí umřeli moc kách .

Ale také nalezneme kách jako koncovku: Určete, ve které (ých) zkumavce (kách) vznikla sraženina!

A hlavně je výsledků málo.

Proto nás zajímá kách jako adjektivum:

[tag=„A.*“&word=„kách“]

A výsledků je tentýž počet. I při opakování dotazu ve velkém spojeném korpusu SYN jsou jako adjektiva označené i pouhé ortograficky oddělené koncovky.

  • Poučení: pozor na tagování.

3. výzkum určitých kategorií

Negace: Hledáme adjektiva v negovaném tvaru, jejichž lemmata nejsou afirmativní

[lemma=„ne.*“ &tag=„A.*“]

Jak odstranit nežádoucí superlativy?

[word=„ne[^j].*“&lemma=„ne.*“ &tag=„A.*“]

Nové výsledky

SYN2010 (lemmata): nezbytný, nemocný, negativní, neuvěřitelný, nedělní, nevinný

Nebo pomocí tagu ptajícího se po negaci:

[word=„ne[^j].*“&lemma=„ne.*“&tag=„A………N.*“]

výsledky SYN2010 (lemmata): nešťastný, newtonovský, nechávající… pouhých 8 lemmat

  • Poučení: pozor na tagování.

4. výzkum určitého lineárního uspořádání

5. kontrastivní výzkum

— Olga Richterová

1)
Za podnět k této otázce děkuji kolegyni Haně Goláňové