Next revision | Previous revision |
en:cnk:mda [2020/06/30 16:37] – created michalkren | en:cnk:mda [2020/08/31 12:01] (current) – [Dimensions of Czech MDA] veronikapojarova |
---|
~~NOTOC~~ | ~~NOTOC~~ |
====== Multidimenzionální analýza češtiny ====== | ====== Multidimensional analysis of Czech ====== |
| |
Multidimenzionální analýza češtiny (MDA) je metoda vyvinutá Douglasem Biberem((Biber, D. (1988). //Variation Across Speech and Writing//. Cambridge, England: Cambridge University Press; Biber, D. (1995). //Dimensions of Register Variation: A Cross-Linguistic Comparison//. Cambridge, England: Cambridge University Press; Biber, D., & Conrad, S. (2009). //Register, Genre, and Style//. Cambridge, England: Cambridge University Press.)) | Multidimensional analysis (MDA) is a method developed by Douglas Biber ((Biber, D. (1988). //Variation Across Speech and Writing//. Cambridge, England: Cambridge University Press; Biber, D. (1995). //Dimensions of Register Variation: A Cross-Linguistic Comparison//. Cambridge, England: Cambridge University Press; Biber, D., & Conrad, S. (2009). //Register, Genre, and Style//. Cambridge, England: Cambridge University Press.)) |
pro empirický výzkum textové variability. MDA je založená na předpokladu, že variabilita textů se manifestuje ve využití jazykových rysů z různých rovin (od fonologie a morfologie přes lexikon až po syntax a pragmatiku). Při koncipování textu je přitom využití jedněch rysů často podmíněno či podpořeno použitím rysů jiných, což vede k domněnce, že pro popis variability je optimální rysy shlukovat do dimenzí podle toho, jak se společně v textech vyskytují. Takto vytvořené dimenze založené na zjištěném souvýskytu jazykových rysů v textech reprezentují základní charakteristiky, podél nichž texty variují a na základě nichž lze vymezovat jednotlivé [[pojmy:register|registry]]. | for the empirical research of textual variability. MDA is based on the assumption that textual variability is manifested in the utilization of linguistic features from different levels (from phonology and morphology through lexicon to syntax and pragmatics). When designing a text, the use of one set of features is often conditioned or supported by the use of another, which leads to the assumption that in order to describe variability, it is optimal to group features into dimensions based on how they co-occur in texts. The dimensions created in this way, i.e. based on the detected co-occurrence of linguistic features in texts, represent the basic characteristics along which the texts exhibit variation and on the basis of which individual [[en:pojmy:register|registers]] can be defined. |
| |
Postup při modelování registrové variability prostřednictvím MDA se během let ustálil a sestává z následujících kroků: | The method for modelling register variability using MDA has become fixed over the years and consists of the following steps: |
| |
* příprava korpusu (viz korpus [[cnk:koditex|Koditex]]), | * preparation of a corpus (see the [[en:cnk:koditex|Koditex]] corpus), |
* výběr rysů a jejich operacionalizace, | * selection of features and their operationalization, |
* faktorová analýza, | * factor analysis, |
* interpretace výsledků. | * interpretation of results. |
===== Dimenze české MDA ===== | ===== Dimensions of Czech MDA ===== |
Pro českou MDA byl na základě empirického šetření((Cvrček, V. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Řehořková, A. – Zasina, A. J. (2018): [[https://www.degruyter.com/view/j/cllt.ahead-of-print/cllt-2018-0020/cllt-2018-0020.xml|From extra- to intratextual characteristics: Charting the space of variation in Czech through MDA]]. //Corpus Linguistics and Linguistic Theory.//)) stanoven počet 8 dimenzí. Každá z dimenzí je charakterizována několika prominentními jazykovými rysy, které na škále zaujímají kladné nebo záporné hodnoty. Pro jednotlivé dimenze byl zvolen zastřešující název odrážející interpretaci obou extrémů. | Based on empirical findings ((Cvrček, V. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Řehořková, A. – Zasina, A. J. (2018): [[https://www.degruyter.com/view/j/cllt.ahead-of-print/cllt-2018-0020/cllt-2018-0020.xml|From extra- to intratextual characteristics: Charting the space of variation in Czech through MDA]]. //Corpus Linguistics and Linguistic Theory.//)), it was established that the number of dimensions for Czech MDA would be 8. Each of the dimensions is characterized by several prominent linguistic features which are assigned either positive or negative values on a scale. For each of the dimensions, an all-encompassing name was chosen which reflects the interpretation of both extreme values. |
| |
===Dimenze české MDA:=== | ===Dimensions in Czech MDA:=== |
- dynamický (+) vs. statický (−) | - dynamic (+) vs. static (−) |
- spontánní (+) vs. připravený (–) | - spontaneous (+) vs. prepared (–) |
- vyšší (+) vs. nižší (–) stupeň koheze | - higher (+) vs. lower (–) level of cohesion |
- polytematický (+) vs. monotematický (–) | - polythematic (+) vs. monothematic (–) |
- vyšší (+) vs. nižší (–) míra explicitní adresnosti | - higher (+) vs. lower (–) amount of addressee coding |
- obecný (+) vs. konkrétní (–) | - general (+) vs. particular (–) |
- prospektivní (+) vs. retrospektivní (–) | - prospective (+) vs. retrospective (–) |
- postojovost (+) vs. faktuálnost (–) | - attitudinal (+) vs. factual (–) |
| |
===Přehled prominentních jazykových rysů=== | ===Overview of prominent linguistic features=== |
| |
Číselný údaj v závorce u rysů odkazuje k loadingu, tj. k míře, s jakou přítomnost daného rysu v textu přispívá k jeho umístění v dimenzi. | The numbers in the brackets signify loading, i.e. to the extent to which the presence of a given feature in the text contributes to its placement in the dimension. |
| |
^ Dimenze ^ Rysy (+) ^ Rysy (–) ^|| | ^ Dimension ^ Features (+) ^ Features (–) ^|| |
| ** dynamický (+) vs. statický (–)** | slovesný čas – min. (0.98)\\ slovesa (0.96)\\ verba finita (0.95)\\ indikativ (0.95)\\ slovesný vid (perf.) (0.93)\\ zájmena pro 3. os. (0.78) | subst. přívlastky neshodné postponované (-0.79)\\ adjektiva (-0.78)\\ abstrakta (-0.72)\\ přívlastky shodné anteponované (-0.72)\\ genitiv (-0.72)\\ klastry adjektiv (-0.70) ||| | | ** dynamic (+) vs. static (–)** | verbal tense – past (0.98)\\ verbs (0.96)\\ finite verbs (0.95)\\ indicative (0.95)\\ verbal aspect (perf.) (0.93)\\ 3rd person pronouns (0.78) | incongruent nominal postmodifiers (-0.79)\\ adjectives (-0.78)\\ abstract nouns (-0.72)\\ congruent premodifiers (-0.72)\\ genitive (-0.72)\\ adjective clusters (-0.70) ||| |
| **spontánní (+) vs. připravený (–)** | kontaktové výrazy (0.97)\\ výplňková slova (0.85)\\ ukazovací zájmena (bez "to") (0.82)\\ citoslovce (0.82)\\ expresivní částice (ostatní – zbytek z COH2, AMP a DOWN) (0.80)\\ pronoun non-dropping (0.79) | předložkové pády obecně (-0.62)\\ věty s interog. a vztaž. adv. (-0.57)\\ předložky (-0.56)\\ slovesný vid (perf.) (-0.49)\\ nominativ + akuzativ (-0.46)\\ unigramy (zTTR) (-0.46) ||| | | **spontaneous (+) vs. prepared (–)** | contact expressions (0.97)\\ filler words (0.85)\\ demonstrative pronouns (without "to") (0.82)\\ interjections (0.82)\\ expressive particles (other – the rest from COH2, AMP and DOWN) (0.80)\\ pronoun non-dropping (0.79) | prepositional cases in general (-0.62)\\ clauses with interrogative and relative adverbs (-0.57)\\ prepositions (-0.56)\\ verbal aspect (perf.) (-0.49)\\ nominative + accusative (-0.46)\\ unigrams (zTTR) (-0.46) ||| |
| **vyšší (+) vs. nižší (–) stupeň koheze** | korelativa (0.59)\\ jmenný přísudek subst. (0.53)\\ vztažné věty typu který (0.45)\\ přivlastňovací zájmena (0.44)\\ inventář zájmen (0.44) | numerale (-0.43) ||| | | **higher (+) vs. lower (–) level of cohesion** | correlatives (0.59)\\ nominal predicate (0.53)\\ relative clauses of the "který" type (0.45)\\ possessive pronouns (0.44)\\ inventory of pronouns (0.44) | numerals (-0.43) ||| |
| **polytematický (+) vs. monotematický (–)** | bigramy (zTTR) (0.76)\\ unigramy (zTTR) (0.70)\\ toponyma (0.37) | tematická koncentrace (-0.61)\\ Yulův koeficient (-0.49)\\ verbální substantiva (-0.45)\\ slovesný rod (pasivum) (-0.42) ||| | | **polythematic (+) vs. monothematic (–)** | bigrams (zTTR) (0.76)\\ unigrams (zTTR) (0.70)\\ toponyms (0.37) | thematic concentration (-0.61)\\ Yule's coefficient (-0.49)\\ verbal nouns (-0.45)\\ verbal voice (passive) (-0.42) ||| |
| **vyšší (+) vs. nižší (–) míra explicitní adresnosti** | otázky (všechny) (0.69)\\ 2. slovesná osoba (0.66)\\ otázky (doplňovací) (0.63)\\ zájmena pro 2. os. (0.62)\\ slovesný čas – bud. (0.53) | průměrná délka věty v tokenech (-0.36)\\ frekventované ngramy (-0.30) ||| | | **higher (+) vs. lower (–) amount of addressee coding** | questions (all) (0.69)\\ verbs in 2nd person (0.66)\\ wh-questions (0.63)\\ 2nd person pronouns (0.62)\\ verbal tense – future (0.53) | average clause length in number of tokens (-0.36)\\ frequent ngrams (-0.30) ||| |
| **obecný (+) vs. konkrétní (–)** | koordinace (0.58)\\ sémanticky vyprázdněná adjektiva (0.41) | antroponyma (-0.49)\\ numerale (-0.40)\\ časové výrazy (-0.36) ||| | | **general (+) vs. particular (–)** | coordination (0.58)\\ semantically empty adjectives (0.41) | anthroponyms (-0.49)\\ numerals (-0.40)\\ temporal expressions (-0.36) ||| |
| **prospektivní (+) vs. retrospektivní (–)** | slovesný čas – přít. (0.77)\\ slovesný čas – bud. (0.55)\\ jmenný přísudek adj. (0.52)\\ imperativ (0.42)\\ 2. slovesná osoba (0.40) | slovesný čas – min (-0.74)\\ zájmena pro 3. os. (-0.43)\\ přivlastňovací adjektiva (-0.39)\\ vztažné věty typu jenž (-0.36) ||| | | **prospective (+) vs. retrospective (–)** | verbal tense – present (0.77)\\ verbal tense – future (0.55)\\ nominal predicate adj. (0.52)\\ imperative (0.42)\\ verb in 2nd person (0.40) | verbal tense – past (-0.74)\\ 3rd person pronouns (-0.43)\\ possessive adjectives (-0.39)\\ relative clauses of the "jenž" type (-0.36) ||| |
| **postojovost (+) vs. faktuálnost (–)** | částice oslabující význam (downtoners/hedges) (0.68)\\ restriktory (0.63)\\ částice zesilující význam (amplifiers/boosters) (0.57)\\ částice členící text (0.52)\\ adverbia (0.50) | koordinace (-0.33) ||| | | **attitudinal (+) vs. factual (–)** | particles weakening meaning (downtoners/hedges) (0.68)\\ restrictors (0.63)\\ particles strengthening meaning (amplifiers/boosters) (0.57)\\ particles structuring the text (0.52)\\ adverbs (0.50) | coordination (-0.33) ||| |
| |
==== Související odkazy ==== | ==== Related links ==== |
| |
<WRAP round box 60%> | <WRAP round box 60%> |
[[en:cnk:registrova_klasifikace|Registrová klasifikace]] • [[en:cnk:koditex|Koditex]] | [[en:cnk:registrova_klasifikace|Classification of registers]] • [[en:cnk:koditex|Koditex]] |
</WRAP> | </WRAP> |
| |