This is an old revision of the document!
Multidimensional analysis of Czech
Multidimensional analysis (MDA) is a method developed by Douglas Biber 1) for the empirical research of textual variability. MDA is based on the assumption that textual variability is manifested in the utilization of linguistic features from different levels (from phonology and morphology through lexicon to syntax and pragmatics). When designing a text, the use of one set of features is often conditioned or supported by the use of another, which leads to the assumption that in order to describe variability, it is optimal to group features into dimensions based on how they co-occur in texts. The dimensions created in this way, i.e. based on the detected co-occurrence of linguistic features in texts, represent the basic characteristics along which the texts exhibit variation and on the basis of which individual registers can be defined.
The method for modelling register variability using MDA has become stabilized over the years and consists of the following steps:
- preparation of a corpus (see the Koditex corpus),
- selection of features and their operationalization,
- factor analysis,
- interpretation of results.
Dimenze české MDA
Pro českou MDA byl na základě empirického šetření2) stanoven počet 8 dimenzí. Každá z dimenzí je charakterizována několika prominentními jazykovými rysy, které na škále zaujímají kladné nebo záporné hodnoty. Pro jednotlivé dimenze byl zvolen zastřešující název odrážející interpretaci obou extrémů.
Dimenze české MDA:
- dynamický (+) vs. statický (−)
- spontánní (+) vs. připravený (–)
- vyšší (+) vs. nižší (–) stupeň koheze
- polytematický (+) vs. monotematický (–)
- vyšší (+) vs. nižší (–) míra explicitní adresnosti
- obecný (+) vs. konkrétní (–)
- prospektivní (+) vs. retrospektivní (–)
- postojovost (+) vs. faktuálnost (–)
Přehled prominentních jazykových rysů
Číselný údaj v závorce u rysů odkazuje k loadingu, tj. k míře, s jakou přítomnost daného rysu v textu přispívá k jeho umístění v dimenzi.
Dimenze | Rysy (+) | Rysy (–) | ||
---|---|---|---|---|
dynamický (+) vs. statický (–) | slovesný čas – min. (0.98) slovesa (0.96) verba finita (0.95) indikativ (0.95) slovesný vid (perf.) (0.93) zájmena pro 3. os. (0.78) | subst. přívlastky neshodné postponované (-0.79) adjektiva (-0.78) abstrakta (-0.72) přívlastky shodné anteponované (-0.72) genitiv (-0.72) klastry adjektiv (-0.70) |
||
spontánní (+) vs. připravený (–) | kontaktové výrazy (0.97) výplňková slova (0.85) ukazovací zájmena (bez “to”) (0.82) citoslovce (0.82) expresivní částice (ostatní – zbytek z COH2, AMP a DOWN) (0.80) pronoun non-dropping (0.79) | předložkové pády obecně (-0.62) věty s interog. a vztaž. adv. (-0.57) předložky (-0.56) slovesný vid (perf.) (-0.49) nominativ + akuzativ (-0.46) unigramy (zTTR) (-0.46) |
||
vyšší (+) vs. nižší (–) stupeň koheze | korelativa (0.59) jmenný přísudek subst. (0.53) vztažné věty typu který (0.45) přivlastňovací zájmena (0.44) inventář zájmen (0.44) | numerale (-0.43) | ||
polytematický (+) vs. monotematický (–) | bigramy (zTTR) (0.76) unigramy (zTTR) (0.70) toponyma (0.37) | tematická koncentrace (-0.61) Yulův koeficient (-0.49) verbální substantiva (-0.45) slovesný rod (pasivum) (-0.42) |
||
vyšší (+) vs. nižší (–) míra explicitní adresnosti | otázky (všechny) (0.69) 2. slovesná osoba (0.66) otázky (doplňovací) (0.63) zájmena pro 2. os. (0.62) slovesný čas – bud. (0.53) | průměrná délka věty v tokenech (-0.36) frekventované ngramy (-0.30) |
||
obecný (+) vs. konkrétní (–) | koordinace (0.58) sémanticky vyprázdněná adjektiva (0.41) | antroponyma (-0.49) numerale (-0.40) časové výrazy (-0.36) |
||
prospektivní (+) vs. retrospektivní (–) | slovesný čas – přít. (0.77) slovesný čas – bud. (0.55) jmenný přísudek adj. (0.52) imperativ (0.42) 2. slovesná osoba (0.40) | slovesný čas – min (-0.74) zájmena pro 3. os. (-0.43) přivlastňovací adjektiva (-0.39) vztažné věty typu jenž (-0.36) |
||
postojovost (+) vs. faktuálnost (–) | částice oslabující význam (downtoners/hedges) (0.68) restriktory (0.63) částice zesilující význam (amplifiers/boosters) (0.57) částice členící text (0.52) adverbia (0.50) | koordinace (-0.33) |