AplikaceAplikace
Nastavení

This is an old revision of the document!


Multidimensional analysis of Czech

Multidimensional analysis (MDA) is a method developed by Douglas Biber 1) for the empirical research of textual variability. MDA is based on the assumption that textual variability is manifested in the utilization of linguistic features from different levels (from phonology and morphology through lexicon to syntax and pragmatics). When designing a text, the use of one set of features is often conditioned or supported by the use of another, which leads to the assumption that in order to describe variability, it is optimal to group features into dimensions based on how they co-occur in texts. The dimensions created in this way, i.e. based on the detected co-occurrence of linguistic features in texts, represent the basic characteristics along which the texts exhibit variation and on the basis of which individual registers can be defined.

The method for modelling register variability using MDA has become fixed over the years and consists of the following steps:

  • preparation of a corpus (see the Koditex corpus),
  • selection of features and their operationalization,
  • factor analysis,
  • interpretation of results.

Dimensions of Czech MDA

Based on empirical findings 2), it was established that the number of dimensions for Czech MDA would be 8. Each of the dimensions is characterized by several prominent linguistic features which are assigned either positive or negative values on a scale. For each of the dimensions, an all-encompassing name was chosen which reflects the interpretation of both extreme values.

Dimensions for Czech MDA:

  1. dynamic (+) vs. static (−)
  2. spontaneous (+) vs. prepared (–)
  3. higher (+) vs. lower (–) degree of cohesion
  4. polythematic (+) vs. monothematic (–)
  5. higher (+) vs. lower (–) degree of explicit addressability
  6. general (+) vs. specific (–)
  7. prospective (+) vs. retrospective (–)
  8. attitude (+) vs. factuality (–)

Overview of prominent linguistic features

Číselný údaj v závorce u rysů odkazuje k loadingu, tj. k míře, s jakou přítomnost daného rysu v textu přispívá k jeho umístění v dimenzi.

Dimenze Rysy (+) Rysy (–)
dynamický (+) vs. statický (–) slovesný čas – min. (0.98)
slovesa (0.96)
verba finita (0.95)
indikativ (0.95)
slovesný vid (perf.) (0.93)
zájmena pro 3. os. (0.78)
subst. přívlastky neshodné postponované (-0.79)
adjektiva (-0.78)
abstrakta (-0.72)
přívlastky shodné anteponované (-0.72)
genitiv (-0.72)
klastry adjektiv (-0.70)
spontánní (+) vs. připravený (–) kontaktové výrazy (0.97)
výplňková slova (0.85)
ukazovací zájmena (bez “to”) (0.82)
citoslovce (0.82)
expresivní částice (ostatní – zbytek z COH2, AMP a DOWN) (0.80)
pronoun non-dropping (0.79)
předložkové pády obecně (-0.62)
věty s interog. a vztaž. adv. (-0.57)
předložky (-0.56)
slovesný vid (perf.) (-0.49)
nominativ + akuzativ (-0.46)
unigramy (zTTR) (-0.46)
vyšší (+) vs. nižší (–) stupeň koheze korelativa (0.59)
jmenný přísudek subst. (0.53)
vztažné věty typu který (0.45)
přivlastňovací zájmena (0.44)
inventář zájmen (0.44)
numerale (-0.43)
polytematický (+) vs. monotematický (–) bigramy (zTTR) (0.76)
unigramy (zTTR) (0.70)
toponyma (0.37)
tematická koncentrace (-0.61)
Yulův koeficient (-0.49)
verbální substantiva (-0.45)
slovesný rod (pasivum) (-0.42)
vyšší (+) vs. nižší (–) míra explicitní adresnosti otázky (všechny) (0.69)
2. slovesná osoba (0.66)
otázky (doplňovací) (0.63)
zájmena pro 2. os. (0.62)
slovesný čas – bud. (0.53)
průměrná délka věty v tokenech (-0.36)
frekventované ngramy (-0.30)
obecný (+) vs. konkrétní (–) koordinace (0.58)
sémanticky vyprázdněná adjektiva (0.41)
antroponyma (-0.49)
numerale (-0.40)
časové výrazy (-0.36)
prospektivní (+) vs. retrospektivní (–) slovesný čas – přít. (0.77)
slovesný čas – bud. (0.55)
jmenný přísudek adj. (0.52)
imperativ (0.42)
2. slovesná osoba (0.40)
slovesný čas – min (-0.74)
zájmena pro 3. os. (-0.43)
přivlastňovací adjektiva (-0.39)
vztažné věty typu jenž (-0.36)
postojovost (+) vs. faktuálnost (–) částice oslabující význam (downtoners/hedges) (0.68)
restriktory (0.63)
částice zesilující význam (amplifiers/boosters) (0.57)
částice členící text (0.52)
adverbia (0.50)
koordinace (-0.33)
1)
Biber, D. (1988). Variation Across Speech and Writing. Cambridge, England: Cambridge University Press; Biber, D. (1995). Dimensions of Register Variation: A Cross-Linguistic Comparison. Cambridge, England: Cambridge University Press; Biber, D., & Conrad, S. (2009). Register, Genre, and Style. Cambridge, England: Cambridge University Press.
2)
Cvrček, V. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Řehořková, A. – Zasina, A. J. (2018): From extra- to intratextual characteristics: Charting the space of variation in Czech through MDA. Corpus Linguistics and Linguistic Theory.