Toto je starší verze dokumentu!
Multidimenzionální analýza češtiny
Multidimenzionální analýza češtiny (MDA) je metoda vyvinutá Douglasem Biberem1) pro empirický výzkum textové variability. MDA je založená na předpokladu, že variabilita textů se manifestuje ve využití jazykových rysů z různých rovin. Při koncipování textu je přitom využití jedněch rysů často podmíněno použitím rysů jiných, což vede k domněnce, že pro popis je optimální rysy shlukovat do dimenzí podle toho, jak se společně v textech vyskytují. Takto vytvořené dimenze reprezentují základní charakteristiky, podél nichž texty variují a na základě nichž lze vymezovat jednotlivé registry.
Model registrové variability, který se na základě MDA vytváří, se během let ustálil a sestává z následujících kroků:
- příprava korpusu (viz korpus Koditex),
- výběr rysů a jejich operacionalizace,
- faktorová analýza,
- interpretace výsledků.
Dimenze české MDA
Pro českou MDA byl na základě empirického šetření2) stanoven počet 8 dimenzí. Každá z dimenzí je charakterizována několika prominentními jazykovými rysy, které na škále zaujímají kladné nebo záporné hodnoty. Pro jednotlivé dimenze byl zvolen zastřešující název odrážející interpretaci obou extrémů.
Dimenze české MDA:
- dynamický (+) vs. statický (−)
- spontánní (+) vs. připravený (–)
- vyšší (+) vs. nižší (–) stupeň koheze
- polytematický (+) vs. monotematický (–)
- vyšší (+) vs. nižší (–) míra explicitní adresnosti
- obecný (+) vs. konkrétní (–)
- prospektivní (+) vs. retrospektivní (–)
- postojovost (+) vs. faktuálnost (–)
Přehled prominentních jazykových rysů
Číselný údaj v závorce u rysů odkazuje k loadingu, tj. k míře, s jakou přítomnost daného rysu v textu přispívá k jeho umístění v dimenzi.
Dimenze | Rysy (+) | Rysy (–) | ||
---|---|---|---|---|
dynamický (+) vs. statický (–) | slovesný čas – min. (0.98) slovesa (0.96) verba finita (0.95) indikativ (0.95) slovesný vid (perf.) (0.93) zájmena pro 3. os. (0.78) | subst. přívlastky neshodné postponované (-0.79) adjektiva (-0.78) abstrakta (-0.72) přívlastky shodné anteponované (-0.72) genitiv (-0.72) klastry adjektiv (-0.70) |
||
spontánní (+) vs. připravený (–) | kontaktové výrazy (0.97) výplňková slova (0.85) ukazovací zájmena (bez „to“) (0.82) citoslovce (0.82) expresivní částice (ostatní – zbytek z COH2, AMP a DOWN) (0.80) pronoun non-dropping (0.79) | předložkové pády obecně (-0.62) věty s interog. a vztaž. adv. (-0.57) předložky (-0.56) slovesný vid (perf.) (-0.49) nominativ + akuzativ (-0.46) unigramy (zTTR) (-0.46) |
||
vyšší (+) vs. nižší (–) stupeň koheze | korelativa (0.59) jmenný přísudek subst. (0.53) vztažné věty typu který (0.45) přivlastňovací zájmena (0.44) inventář zájmen (0.44) | numerale (-0.43) | ||
polytematický (+) vs. monotematický (–) | bigramy (zTTR) (0.76) unigramy (zTTR) (0.70) toponyma (0.37) | tematická koncentrace (-0.61) Yulův koeficient (-0.49) verbální substantiva (-0.45) slovesný rod (pasivum) (-0.42) |
||
vyšší (+) vs. nižší (–) míra explicitní adresnosti | otázky (všechny) (0.69) 2. slovesná osoba (0.66) otázky (doplňovací) (0.63) zájmena pro 2. os. (0.62) slovesný čas – bud. (0.53) | průměrná délka věty v tokenech (-0.36) frekventované ngramy (-0.30) |
||
obecný (+) vs. konkrétní (–) | koordinace (0.58) sémanticky vyprázdněná adjektiva (0.41) | antroponyma (-0.49) numerale (-0.40) časové výrazy (-0.36) |
||
prospektivní (+) vs. retrospektivní (–) | slovesný čas – přít. (0.77) slovesný čas – bud. (0.55) jmenný přísudek adj. (0.52) imperativ (0.42) 2. slovesná osoba (0.40) | slovesný čas – min (-0.74) zájmena pro 3. os. (-0.43) přivlastňovací adjektiva (-0.39) vztažné věty typu jenž (-0.36) |
||
postojovost (+) vs. faktuálnost (–) | částice oslabující význam (downtoners/hedges) (0.68) restriktory (0.63) částice zesilující význam (amplifiers/boosters) (0.57) částice členící text (0.52) adverbia (0.50) | koordinace (-0.33) |