Skrýt
Nastavení

Toto je starší verze dokumentu!


Jak na výzkumné otázky

v manuálu chvala_korpusu jsme si postupně v sedmi lekcích ukázali, jak položit pokročilé dotazy pomocí dotazovacího jazyka a osvojili jsme si principy práce s regulárními výrazy, kombinacemi podmínek či třeba subkorpusy. Chcete-li se nechat provést všemi zásadními tématy souvisejícími s korpusovým výzkumem, nalistujte si právě manuál.

Tato stránka pak slouží k nastínění postupů používaných při řešení konkrétních výzkumných problémů na základě korpusových dat. Nečiní si nárok na úplnost, doufáme ale, že zde najdete inspiraci a pokud si s něčím i po prostudování manuálu nebudete vědět rady, kontaktujte nás!

Různé typy výzkumných otázek

  1. výzkum určitého jazyka (textový typ, žánr, autorský styl, doba…)
  2. výzkum určitých forem (slovního základu, formantů, odvozenin…)
  3. výzkum určitých kategorií (slovních druhů, informací obsažených v morfologických tazích…)
  4. výzkum určitého lineárního uspořádání (slovosledu, syntaxe, …)
  5. kontrastivní výzkum (na paralelních korpusech řady InterCorp)
  6. volba vhodného vzorku

1. výzkum určitého typu jazyka

K tomuto typu výzkumu využívejte buď subkorpus sestavený podle vámi zvolených kritérií, nebo zadejte dotaz pomocí podmínky (within).

Jazyk české x překladové beletrie

Pozor: Způsob výstavby korpusů řady SYN neumožňuje zaškrtnout u zdrojového jazyka jako kritérium výběru češtinu. Je to proto, že v SYNech nemá svou vlastní zkratku, pouze představuje defaultní volbu: není-li u atributu „srclang“, (source language, zdrojový jazyk), uvedena žádná hodnota, jedná se právě o češtinu. Jak si tedy zvolit pouze původně české, nepřekladové texty?

  1. Zvolte si korpus SYN, typ dotazu CQL.
  2. Zkoumaným jevem bude distribuce citoslovcí v překladech z angličtiny a původně českých textech.
  3. Zadejte dotaz: [tag=„I.*“] within <srclang=„“/> a [tag=„I.*“] within <srclang=„ENG“/>
  4. Porovnejte frekvenční distribuce (na lemmatu).

Výsledek: ….

Shrnutí - atribut srclang

  • V korpusech řady SYN je pro zkoumání čisté češtiny třeba vyhledávat zkoumaný jev v těch textech, které splňují podmínku within <srclang=„“/>.
  • V korpusech z paralelní řady zvané InterCorp už atribut srclang="cs" zanesený je. Všimněte si ale, že u hodnoty atributů záleží i na velikosti písmen:

Autorský jazyk a sociolingvistické proměnné

- nástrahy zadávání cizích jmen: Virginia Woolf a Woolfová, více Karlů Čapků, hledání v SYNu versus v InterCorpu

Autorský jazyk v překladech

Známí překladatelé, manželé Pellarovi, jsou v souboru SYN zastoupeni řadou děl. Texty, které překládali pouze oni, nalezneme za pomoci této podmínky: within <opus preklad=„Pellar.*“ />, potřebujeme však v textech splňujících tento atribut nalézt nějaký jev. Nepříliš frekventovaná a současně zajímavá jsou citoslovce.

[tag=„I.*“] within <opus preklad=„Pellar.*“ />

Frekvenčnímu seznamu dominuje následujících 30 lemmat:

Další srovnávání podobně utvářených a funkčně blízkých výrazů typu propánakrále a prokristapána ukazuje, že první lexém je používaný především jako charakterizační prostředek jazyka hlavní postavy románu Kdo chytá v žitě. Naopak prokristapána je mnohem rovnoměrněji zastoupeno ve vyšším počtu děl, konkrétně sedmi.

Propánakrále:

Název díla frekvence ipm
Kdo chytá v žitě 25 299.8
Devět povídek 11 177.8
Penězoměnci 2 10.9

Sociolingvistické proměnné: učitelé, žáci a věk

Je pozorovatelný rozdíl v používání vágních výplňových výrazů v závislosti na věku a vzdělání? 1) [word="vlastně"] within <sp vek_u>="1" /> Frekvenční rozdělení podle věku naleznete po přihlášení zde.

Osoby Věk Počet výskytů vlastně v i.p.m.
Učitelé do 30 1140
31–40 513
41–50 653
51–60 1228

Vysoký podíl výskytů vlastně v nejstarší věkové skupině může souviset s rozdíly v dosaženém vzdělání, nejprve se podívejme jen na celkovou statistiku:

Učitelé Dosažené vzdělání Počet výskytů vlastně v i.p.m.
A - vyšší 813
B - nižší 458

A nyní upřesněme podmínky v dotazu pro vyšší (A) či nižší (B) vzdělání v určitém věku, například takto pro mluvčí starší 50 let s vyšším vzděláním: [word="vlastně"] within <sp vek_u>="50" /> within <sp vzdelani=„A“ />

A určitý věk:

Jazyk určité doby

- vytváření subkorpusu jazyka 19. / 1.pol. 20. stol. pozor na kolizi 1. vydání X námi zařazené vydání

Jazyk určitého regionu

Lze zkoumat na mluveném jazyce, ORAL 2013 - i Morava

„To se nechá koupit…“ pytlovina pletýnka su rožnout toto x tohle x …

2. výzkum určitých forem

Adjektivum ‘kách’ v současné češtině

Z rakouské němčiny přejatý výraz pro rychle ještě úplně neupadl v zapomnění. Nejprve hledáme prosté [lemma=„kách“] (SYN2010) a nalezneme např.: Ti druzí umřeli moc kách .

Ale také nalezneme kách jako koncovku: Určete, ve které (ých) zkumavce (kách) vznikla sraženina!

A hlavně je výsledků málo.

Proto nás zajímá kách jako adjektivum:

[tag=„A.*“&word=„kách“]

A výsledků je tentýž počet. I při opakování dotazu ve velkém spojeném korpusu SYN jsou jako adjektiva označené i pouhé ortograficky oddělené koncovky.

  • Poučení: pozor na tagování.

3. výzkum určitých kategorií

Díky tagování máme k dispozici informace o celé řadě morfologických kategorií.

Negace: Hledáme adjektiva v negovaném tvaru, jejichž lemmata nejsou afirmativní

[lemma=„ne.*“ &tag=„A.*“]

Jak odstranit nežádoucí superlativy?

[word=„ne[^j].*“&lemma=„ne.*“ &tag=„A.*“]

Nové výsledky

SYN2010 (lemmata): nezbytný, nemocný, negativní, neuvěřitelný, nedělní, nevinný

Nebo pomocí tagu ptajícího se po negaci:

[word=„ne[^j].*“&lemma=„ne.*“&tag=„A………N.*“]

výsledky SYN2010 (lemmata): nešťastný, newtonovský, nechávající… pouhých 8 lemmat

  • Poučení: pozor na tagování.

4. výzkum určitého lineárního uspořádání

pozice, v rámci jedné věty, kontrast vět tázacích a rozkazovacích…

5. kontrastivní výzkum

Srovnávání více jazyků umožňují korpusy řady InterCorp.

Ekvivalenty v překladech: //Macher//

False friends jsou výrazy, na něž je klasický slovník často krátký. Patří mezi ně třeba německé Macher - není to totiž namyšlený český machr, ale docela obyčejný hybatel dění či strůjce, původce. Lépe než slovník k nalezení vhodného překladu poslouží paralelní rozhraní:

Adverbiale na počátku věty v angličtině

Chceme najít příslovečná určení na začátcích anglických vět, oddělená čárkou:

<s>[tag=„IN][word!=„V.*“]{1,2}[word=“,„]

Nejfrekventovanější výskyty ukazují, že nám tento dotaz dává spíše větná uvození:

— Olga Richterová

Volba vhodného vzorku

Absolutní komparativ - Bc. práce

Václav Cvrček

1)
Za podnět k této otázce děkuji kolegyni Haně Goláňové