Multidimenzionální analýza češtiny (MDA) je metoda vyvinutá Douglasem Biberem1) pro empirický výzkum textové variability. MDA je založená na předpokladu, že variabilita textů se manifestuje ve využití jazykových rysů z různých rovin (od fonologie a morfologie přes lexikon až po syntax a pragmatiku). Při koncipování textu je přitom využití jedněch rysů často podmíněno či podpořeno použitím rysů jiných, což vede k domněnce, že pro popis variability je optimální rysy shlukovat do dimenzí podle toho, jak se společně v textech vyskytují. Takto vytvořené dimenze založené na zjištěném souvýskytu jazykových rysů v textech reprezentují základní charakteristiky, podél nichž texty variují a na základě nichž lze vymezovat jednotlivé registry.
Postup při modelování registrové variability prostřednictvím MDA se během let ustálil a sestává z následujících kroků:
Pro českou MDA byl na základě empirického šetření2) stanoven počet 8 dimenzí. Každá z dimenzí je charakterizována několika prominentními jazykovými rysy, které na škále zaujímají kladné nebo záporné hodnoty. Pro jednotlivé dimenze byl zvolen zastřešující název odrážející interpretaci obou extrémů.
Číselný údaj v závorce u rysů odkazuje k loadingu, tj. k míře, s jakou přítomnost daného rysu v textu přispívá k jeho umístění v dimenzi.
Dimenze | Rysy (+) | Rysy (–) | ||
---|---|---|---|---|
dynamický (+) vs. statický (–) | slovesný čas – min. (0.98) slovesa (0.96) verba finita (0.95) indikativ (0.95) slovesný vid (perf.) (0.93) zájmena pro 3. os. (0.78) | subst. přívlastky neshodné postponované (-0.79) adjektiva (-0.78) abstrakta (-0.72) přívlastky shodné anteponované (-0.72) genitiv (-0.72) klastry adjektiv (-0.70) |
||
spontánní (+) vs. připravený (–) | kontaktové výrazy (0.97) výplňková slova (0.85) ukazovací zájmena (bez „to“) (0.82) citoslovce (0.82) expresivní částice (ostatní – zbytek z COH2, AMP a DOWN) (0.80) pronoun non-dropping (0.79) | předložkové pády obecně (-0.62) věty s interog. a vztaž. adv. (-0.57) předložky (-0.56) slovesný vid (perf.) (-0.49) nominativ + akuzativ (-0.46) unigramy (zTTR) (-0.46) |
||
vyšší (+) vs. nižší (–) stupeň koheze | korelativa (0.59) jmenný přísudek subst. (0.53) vztažné věty typu který (0.45) přivlastňovací zájmena (0.44) inventář zájmen (0.44) | numerale (-0.43) | ||
polytematický (+) vs. monotematický (–) | bigramy (zTTR) (0.76) unigramy (zTTR) (0.70) toponyma (0.37) | tematická koncentrace (-0.61) Yulův koeficient (-0.49) verbální substantiva (-0.45) slovesný rod (pasivum) (-0.42) |
||
vyšší (+) vs. nižší (–) míra explicitní adresnosti | otázky (všechny) (0.69) 2. slovesná osoba (0.66) otázky (doplňovací) (0.63) zájmena pro 2. os. (0.62) slovesný čas – bud. (0.53) | průměrná délka věty v tokenech (-0.36) frekventované ngramy (-0.30) |
||
obecný (+) vs. konkrétní (–) | koordinace (0.58) sémanticky vyprázdněná adjektiva (0.41) | antroponyma (-0.49) numerale (-0.40) časové výrazy (-0.36) |
||
prospektivní (+) vs. retrospektivní (–) | slovesný čas – přít. (0.77) slovesný čas – bud. (0.55) jmenný přísudek adj. (0.52) imperativ (0.42) 2. slovesná osoba (0.40) | slovesný čas – min (-0.74) zájmena pro 3. os. (-0.43) přivlastňovací adjektiva (-0.39) vztažné věty typu jenž (-0.36) |
||
postojovost (+) vs. faktuálnost (–) | částice oslabující význam (downtoners/hedges) (0.68) restriktory (0.63) částice zesilující význam (amplifiers/boosters) (0.57) částice členící text (0.52) adverbia (0.50) | koordinace (-0.33) |