Toto je starší verze dokumentu!
Totalita: korpus jazyka totality
Korpus Totalita je diachronní korpus psané češtiny pokrývající období komunistické diktatury (1948–1989), který sloužil jako materiálová základna pro Slovník komunistické totality. Korpus byl převzat z doprovodného CD ke slovníku, nezměnila se ani uváděná metadata, ani lemmatizace a morfologické značkování. To sice na jednu stranu znamená, že značkování již neodpovídá soudobému standardu značkování korpusů ČNK, na druhou stranu to však umožnilo zachovat výsledky náročné manuální lemmatizace, která před vznikem slovníku proběhla.
Název | Etalon | ||
---|---|---|---|
Pozice | Počet pozic (tokenů) |
2 265 762
|
|
Počet pozic bez interpunkce | 1 885 621 | ||
Struktury | Počet dokumentů <doc> | 94 | |
Počet vět <s> | 153 774 | ||
Složení korpusu | Beletrie | pozice | 538 219 |
slova | 436 548 | ||
věty | 38 919 | ||
Odborná literatura | pozice | 912 194 | |
slova | 758 227 | ||
věty | 60 098 | ||
Publicistika | pozice | 815 349 | |
slova | 690 846 | ||
věty | 54 757 | ||
Rok zveřejnění | 2021 |
Složení korpusu Totalita
Datové zdroje tvoří v úhrnu dva typy textů:
1. Rudé právo: celkem 400 souborů, celkem cca 10 milionů pozic (2/3 z celkového objemu), a to konkrétně ze tří období:
- ročník 1952 (dvě poslední čtvrtletí): 6. 6. – 31. 12. 1952
- ročník 1969 (druhé čtvrtletí): 1. 4. – 31. 4. 1969
- ročník 1977 (první čtvrtletí): 3. 1. – 31. 3. 1977
2. Knihy a tiskoviny: 91 knih, celkem cca 5 milionů pozic (1/3 z celkového objemu), a to: 1952 (23 knih), 1969 (10 knih), 1977 (58 knih)
Protože cílem tvorby korpusu Totalita nebylo pokrýt celé období 41 let vyčerpávajícím způsobem, muselo jít jen o kriteriální výběr. Ten byl možný při opření se o závažná tří období, jejichž výběr se opíral o historická kritéria, zastoupená uvedenými kvartály Rudého práva a do značné míry i časově korelovanou volbou knih a tiskovin. Navíc není tento korpus jazykově reprezentativní pro celý tehdejší diskurz, ale pouze pro jeho veřejný, oficiální propagandou řízený segment. Čistě obsahově stojí na jedné straně typický a dominantní lexikon totalitní (tj. výrazivo specifické pro svou dobu z hlediska ideologického a politického, zvláště však propagandistického: milice, kádrovat, uliční výbor, F. Čermákem nazývaný V-jazyk, „jazyk komunistických vládců“), tvořící obsah tehdy vydávaných tiskovin všeho druhu. Tento lexikon koexistoval s normálním, věcně neutrálním slovníkem pro věci, realitu nezasažené politikou, a tedy většinu věcí každodenního života (kdy lexémy jako chléb, autobus či cestovat ideologii nepodléhají), které byly před onou dobou a většinou i po ní. Zcela však chybí O-jazyk, „jazyk ovládaných“ (esenbák, mukl, vekslovat).
Další literatura
Čermák, F.: Slovník komunistické totality: léxémy, nominace a jejich užití. In: Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): Slovník komunistické totality. Praha: NLN, s. 16–39.
Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: Jazyk v politických, ideologických a interkultúrnych vzťahoch. Sociolinguistica Slovaca 8. Veda, Bratislava 2015, s. 50–60. </WRAP>
Jak citovat korpus Totalita
Skoumalová, H. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Kocek, J.: TOTALITA: korpus jazyka totality. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz