Multidimenzionální analýza češtiny
Multidimenzionální analýza češtiny (MDA) je metoda vyvinutá Douglasem Biberem1) pro empirický výzkum textové variability. MDA je založená na předpokladu, že variabilita textů se manifestuje ve využití jazykových rysů z různých rovin (od fonologie a morfologie přes lexikon až po syntax a pragmatiku). Při koncipování textu je přitom využití jedněch rysů často podmíněno či podpořeno použitím rysů jiných, což vede k domněnce, že pro popis variability je optimální rysy shlukovat do dimenzí podle toho, jak se společně v textech vyskytují. Takto vytvořené dimenze založené na zjištěném souvýskytu jazykových rysů v textech reprezentují základní charakteristiky, podél nichž texty variují a na základě nichž lze vymezovat jednotlivé registry.
Postup při modelování registrové variability prostřednictvím MDA se během let ustálil a sestává z následujících kroků:
- příprava korpusu (viz korpus Koditex),
- výběr rysů a jejich operacionalizace,
- faktorová analýza,
- interpretace výsledků.
Dimenze české MDA
Pro českou MDA byl na základě empirického šetření2) stanoven počet 8 dimenzí. Každá z dimenzí je charakterizována několika prominentními jazykovými rysy, které na škále zaujímají kladné nebo záporné hodnoty. Pro jednotlivé dimenze byl zvolen zastřešující název odrážející interpretaci obou extrémů.
Dimenze české MDA:
- dynamický (+) vs. statický (−)
- spontánní (+) vs. připravený (–)
- vyšší (+) vs. nižší (–) stupeň koheze
- polytematický (+) vs. monotematický (–)
- vyšší (+) vs. nižší (–) míra explicitní adresnosti
- obecný (+) vs. konkrétní (–)
- prospektivní (+) vs. retrospektivní (–)
- postojovost (+) vs. faktuálnost (–)
Přehled prominentních jazykových rysů
Číselný údaj v závorce u rysů odkazuje k loadingu, tj. k míře, s jakou přítomnost daného rysu v textu přispívá k jeho umístění v dimenzi.
Dimenze | Rysy (+) | Rysy (–) | ||
---|---|---|---|---|
dynamický (+) vs. statický (–) | slovesný čas – min. (0.98) slovesa (0.96) verba finita (0.95) indikativ (0.95) slovesný vid (perf.) (0.93) zájmena pro 3. os. (0.78) | subst. přívlastky neshodné postponované (-0.79) adjektiva (-0.78) abstrakta (-0.72) přívlastky shodné anteponované (-0.72) genitiv (-0.72) klastry adjektiv (-0.70) |
||
spontánní (+) vs. připravený (–) | kontaktové výrazy (0.97) výplňková slova (0.85) ukazovací zájmena (bez „to“) (0.82) citoslovce (0.82) expresivní částice (ostatní – zbytek z COH2, AMP a DOWN) (0.80) pronoun non-dropping (0.79) | předložkové pády obecně (-0.62) věty s interog. a vztaž. adv. (-0.57) předložky (-0.56) slovesný vid (perf.) (-0.49) nominativ + akuzativ (-0.46) unigramy (zTTR) (-0.46) |
||
vyšší (+) vs. nižší (–) stupeň koheze | korelativa (0.59) jmenný přísudek subst. (0.53) vztažné věty typu který (0.45) přivlastňovací zájmena (0.44) inventář zájmen (0.44) | numerale (-0.43) | ||
polytematický (+) vs. monotematický (–) | bigramy (zTTR) (0.76) unigramy (zTTR) (0.70) toponyma (0.37) | tematická koncentrace (-0.61) Yulův koeficient (-0.49) verbální substantiva (-0.45) slovesný rod (pasivum) (-0.42) |
||
vyšší (+) vs. nižší (–) míra explicitní adresnosti | otázky (všechny) (0.69) 2. slovesná osoba (0.66) otázky (doplňovací) (0.63) zájmena pro 2. os. (0.62) slovesný čas – bud. (0.53) | průměrná délka věty v tokenech (-0.36) frekventované ngramy (-0.30) |
||
obecný (+) vs. konkrétní (–) | koordinace (0.58) sémanticky vyprázdněná adjektiva (0.41) | antroponyma (-0.49) numerale (-0.40) časové výrazy (-0.36) |
||
prospektivní (+) vs. retrospektivní (–) | slovesný čas – přít. (0.77) slovesný čas – bud. (0.55) jmenný přísudek adj. (0.52) imperativ (0.42) 2. slovesná osoba (0.40) | slovesný čas – min (-0.74) zájmena pro 3. os. (-0.43) přivlastňovací adjektiva (-0.39) vztažné věty typu jenž (-0.36) |
||
postojovost (+) vs. faktuálnost (–) | částice oslabující význam (downtoners/hedges) (0.68) restriktory (0.63) částice zesilující význam (amplifiers/boosters) (0.57) částice členící text (0.52) adverbia (0.50) | koordinace (-0.33) |