Skrýt
Nastavení

Toto je starší verze dokumentu!


Jak na výzkumné otázky

V manuálu jsme si postupně v sedmi lekcích ukázali, jak položit pokročilé dotazy pomocí dotazovacího jazyka a osvojili jsme si principy práce s regulárními výrazy, kombinacemi podmínek či třeba subkorpusy. Chcete-li se nechat provést všemi zásadními tématy souvisejícími s korpusovým výzkumem, nalistujte si právě manuál.

Tato stránka pak slouží k nastínění postupů používaných při řešení konkrétních výzkumných problémů na základě korpusových dat. Nečiní si nárok na úplnost, doufáme ale, že zde najdete inspiraci a pokud si s něčím i po prostudování manuálu nebudete vědět rady, kontaktujte nás!

Různé typy výzkumných otázek

  1. výzkum určitého jazyka (textový typ, žánr, autorský styl, doba…)
  2. výzkum určitých forem (slovního základu, formantů, odvozenin…)
  3. výzkum určitých kategorií (slovních druhů, informací obsažených v morfologických tazích…)
  4. výzkum určitého lineárního uspořádání (slovosledu, syntaxe, …)
  5. kontrastivní výzkum (na paralelních korpusech řady InterCorp)
  6. volba vhodného vzorku

1. výzkum určitého typu jazyka

K tomuto typu výzkumu využívejte buď subkorpus sestavený podle vámi zvolených kritérií, nebo zadejte dotaz pomocí podmínky (within).

Jazyk české x překladové beletrie

Pozor: Způsob výstavby korpusů řady SYN neumožňuje zaškrtnout u zdrojového jazyka jako kritérium výběru češtinu. Je to proto, že v SYNech nemá svou vlastní zkratku, pouze představuje defaultní volbu: není-li u atributu „srclang“, (source language, zdrojový jazyk), uvedena žádná hodnota, jedná se právě o češtinu. Jak si tedy zvolit pouze původně české, nepřekladové texty?

  1. Zvolte si korpus SYN, typ dotazu CQL.
  2. Zkoumaným jevem bude distribuce citoslovcí v překladech z angličtiny a původně českých textech.
  3. Zadejte dotaz: [tag=„I.*“] within <srclang=„“/> a [tag=„I.*“] within <srclang=„ENG“/>
  4. Porovnejte frekvenční distribuce (na lemmatu).

Výsledek: ….

Shrnutí - atribut srclang

  • V korpusech řady SYN je pro zkoumání čisté češtiny třeba vyhledávat zkoumaný jev v těch textech, které splňují podmínku within <srclang=„“/>.
  • V korpusech z paralelní řady zvané InterCorp už atribut srclang="cs" zanesený je. Všimněte si ale, že u hodnoty atributů záleží i na velikosti písmen:

Autorský jazyk a sociolingvistické proměnné

- nástrahy zadávání cizích jmen: Virginia Woolf a Woolfová, více Karlů Čapků, hledání v SYNu versus v InterCorpu

Autorský jazyk v překladech

Známí překladatelé, manželé Pellarovi, jsou v souboru SYN zastoupeni řadou děl. Texty, které překládali pouze oni, nalezneme za pomoci této podmínky: within <opus preklad=„Pellar.*“ />, potřebujeme však v textech splňujících tento atribut nalézt nějaký jev. Nepříliš frekventovaná a současně zajímavá jsou citoslovce.

[tag=„I.*“] within <opus preklad=„Pellar.*“ />

Frekvenčnímu seznamu dominuje následujících 30 lemmat:

Další srovnávání podobně utvářených a funkčně blízkých výrazů typu propánakrále a prokristapána ukazuje, že první lexém je používaný především jako charakterizační prostředek jazyka hlavní postavy románu Kdo chytá v žitě. Naopak prokristapána je mnohem rovnoměrněji zastoupeno ve vyšším počtu děl, konkrétně sedmi.

Propánakrále:

Název díla frekvence ipm
Kdo chytá v žitě 25 299.8
Devět povídek 11 177.8
Penězoměnci 2 10.9

Sociolingvistické proměnné: učitelé, žáci a věk

Je pozorovatelný rozdíl v používání vágních výplňových výrazů v závislosti na věku a vzdělání? 1) [word="vlastně"] within <sp vek_u>="1" /> Frekvenční rozdělení podle věku naleznete po přihlášení zde.

Osoby Věk Počet výskytů vlastně v i.p.m.
Učitelé do 30 1140
31–40 513
41–50 653
51–60 1228

Vysoký podíl výskytů vlastně v nejstarší věkové skupině může souviset s rozdíly v dosaženém vzdělání, nejprve se podívejme jen na celkovou statistiku:

Učitelé Dosažené vzdělání Počet výskytů vlastně v i.p.m.
A - vyšší 813
B - nižší 458

A nyní upřesněme podmínky v dotazu pro vyšší (A) či nižší (B) vzdělání v určitém věku, například takto pro mluvčí starší 50 let s vyšším vzděláním: [word="vlastně"] within <sp vek_u>="50" /> within <sp vzdelani=„A“ />

A určitý věk:

Jazyk určité doby

- vytváření subkorpusu jazyka 19. / 1.pol. 20. stol. pozor na kolizi 1. vydání X námi zařazené vydání

Jazyk určitého regionu

Lze zkoumat na mluveném jazyce, ORAL 2013 - i Morava

„To se nechá koupit…“ pytlovina pletýnka su rožnout toto x tohle x …

2. výzkum určitých forem

Adjektivum ‘kách’ v současné češtině

Z rakouské němčiny přejatý výraz pro rychle ještě úplně neupadl v zapomnění. Nejprve hledáme prosté [lemma=„kách“] (SYN2010) a nalezneme např.: Ti druzí umřeli moc kách .

Ale také nalezneme kách jako koncovku: Určete, ve které (ých) zkumavce (kách) vznikla sraženina!

A hlavně je výsledků málo.

Proto nás zajímá kách jako adjektivum:

[tag=„A.*“&word=„kách“]

A výsledků je tentýž počet. I při opakování dotazu ve velkém spojeném korpusu SYN jsou jako adjektiva označené i pouhé ortograficky oddělené koncovky.

  • Poučení: pozor na tagování.

3. výzkum určitých kategorií

Díky tagování máme k dispozici informace o celé řadě morfologických kategorií.

Negace: Hledáme adjektiva v negovaném tvaru, jejichž lemmata nejsou afirmativní

[lemma=„ne.*“ &tag=„A.*“]

Jak odstranit nežádoucí superlativy?

[word=„ne[^j].*“&lemma=„ne.*“ &tag=„A.*“]

Nové výsledky

SYN2010 (lemmata): nezbytný, nemocný, negativní, neuvěřitelný, nedělní, nevinný

Nebo pomocí tagu ptajícího se po negaci:

[word=„ne[^j].*“&lemma=„ne.*“&tag=„A………N.*“]

výsledky SYN2010 (lemmata): nešťastný, newtonovský, nechávající… pouhých 8 lemmat

  • Poučení: pozor na tagování.

4. výzkum určitého lineárního uspořádání

pozice, v rámci jedné věty, kontrast vět tázacích a rozkazovacích…

Hledáme veškerou interpunkci v mluveném korpusu (počet pozic obsazených slovy)

Můžeme si v mluvených korpusech ověřit, kolik slov - zde definovaných jako řetězce obsahující alfabetické znaky - obsahují? Jelikož ORAL2008 ani jiný korpus mluveného jazyka není lemmatizovaný (natož otagovaný), je třeba optat se přímo na konkrétní tvary interpunkčních znamének a ty odečíst z celkového počtu pozic v daném korpusu. Zpětné lomítko způsobí, že např. tečka ztratí svůj zvláštní význam coby libovolný zástupný znak (viz regulární výrazy).

Nejprve zadáme jednoduchý dotaz s nejběžnějšími interpunkčními znaménky:

[word="\.|\?|\!|\;|\:|\,"]

korpus celková velikost počet nealfabetických výskytů zbývající pozice obsazené slovními tvary
ORAL2008 1 349 536 284 909 1 064 627

Eliminujeme-li výše uvedená interpunkční znaménka, zbývá nám skutečně 1 064 627 pozic obsazených slovy? Nikoli. Po bližším pohledu vyjde najevo, že mluvené korpusy obsahují řadu dalších značek, které nelze označit za interpunkční znaménka, ovšem zaujímají strukturní pozice. Jejich přehled lze nalézt v pravidlech pro přepis.

Řešením se zdá být dotaz po všech znacích nealfabetické povahy. Takový dotaz umožní vyloučit mj. i situační komentáře psané do závorek (např. (zvuky televize) nebo (do telefonu)):

[word!="[a-zA-Z]+"]

Výsledek v ORALu2008: 704 515 výskytů. Dotaz totiž zahrnul i veškerá slova obsahující diakritiku - asi nepřekvapí, že regulární výrazy nejsou adaptované na češtinu. Další precizování dotazu:

[word!="[a-zA-ZžňčťďřšěéáíýóúůŽŇČŤĎŘŠĚÉÁÍÝÓÚŮüäöëÿ]+"]

Výsledek:

korpus celková velikost počet nealfabetických výskytů zbývající pozice obsazené slovními tvary
ORAL2008 1 349 536 337 247 1 012 289

Jenže tento dotaz vyřadí i nedořečená slova, ukončená pomocí hvězdičky (např. babič*), stejně jako slova postrádající začátek (např: *šjak) a slova obsahující spojovník (e-mail 2) ).

Pokud stanovíme, že v mluveném korpusu slova nemusí být dořečená, ba mohou obsahovat i spojovník, dostaneme následující dotaz a výsledek:

[word!="[a-zA-ZžňčťďřšěéáíýóúůŽŇČŤĎŘŠĚÉÁÍÝÓÚŮüäöëÿ]+"&word!=".*\*|\*.*|.+\-.+"]

korpus celková velikost počet nealfabetických výskytů zbývající pozice obsazené slovními tvary
ORAL2008 1 349 536 323 267 1 026 269
ORAL2006 1 312 282 288 460 1 023 822

Takový výsledek již lze považovat za směrodatný.

Ještě poznámka: ačkoliv se různé mluvené korpusy liší, např. SCHOLA2010 obsahuje interpunkci a rozdílné závorky pro různé typy komentářů (pravidlaprepis), tento dotaz platí i pro něj:

korpus celková velikost počet nealfabetických výskytů zbývající pozice obsazené slovními tvary
SCHOLA2010 1 046 600 218 562 828 038

Odkaz na tento dotaz naleznete zde.

5. kontrastivní výzkum

Srovnávání více jazyků umožňují korpusy řady InterCorp.

Ekvivalenty v překladech: //Macher//

False friends jsou výrazy, na něž je klasický slovník často krátký. Patří mezi ně třeba německé Macher - není to totiž namyšlený český machr, ale docela obyčejný hybatel dění či strůjce, původce. Lépe než slovník k nalezení vhodného překladu poslouží paralelní rozhraní:

Adverbiale na počátku věty v angličtině

Chceme najít příslovečná určení na začátcích anglických vět, oddělená čárkou:

<s>[tag=„IN][word!=„V.*“]{1,2}[word=“,„]

Nejfrekventovanější výskyty ukazují, že nám tento dotaz dává spíše větná uvození:

— Olga Richterová

Volba vhodného vzorku

Absolutní komparativ - Bc. práce

Václav Cvrček

1)
Za podnět k této otázce děkuji kolegyni Haně Goláňové
2)
vyvstává ovšem otázka, do jaké míry zde přepisovatelé namísto sledování mluvy sledovali běžnou ortografii