Následující verze | Předchozí verzePoslední revizeObě strany příští revize |
cnk:totalita [2023/02/22 13:39] – vytvořeno michalskrabal | cnk:totalita [2023/02/23 14:54] – [Totalita: korpus jazyka totality] michalkren |
---|
====== Totalita: korpus jazyka totality ====== | ====== Totalita: korpus jazyka totality ====== |
| |
Korpus Etalon je [[pojmy:synchronni|synchronní]] korpus psané češtiny, který byl manuálně [[pojmy:morfologicka_analyza|morfologicky označkován]] podle stejných zásad jako [[cnk:syn2020|SYN2020]]. | Korpus Totalita je [[pojmy:diachronni|diachronní]] korpus psané češtiny pokrývající období komunistické diktatury (1948--1989), který sloužil jako materiálová základna pro [[https://www.nln.cz/knihy/slovnik-komunisticke-totality/|Slovník komunistické totality]]. Korpus byl převzat z doprovodného CD ke slovníku, nezměnila se ani uváděná metadata, ani lemmatizace a morfologické značkování. To sice na jednu stranu znamená, že **značkování neodpovídá soudobému standardu** značkování korpusů ČNK, na druhou stranu to však umožnilo **zachovat výsledky manuální lemmatizace**, která před vznikem slovníku proběhla. |
| |
<WRAP right 40%> | <WRAP right 40%> |
^ <fs medium>Název</fs> ^^^ <fs medium>Etalon</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>Totalita</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] ^| <html>2 265 762</html> | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 15 350 741 | |
^ ::: ^ Počet pozic bez interpunkce ^| 1 885 621 | | ^ ::: ^ Počet pozic bez interpunkce | 12 909 992 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> ^| 94 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 490 | |
^ ::: ^ Počet vět <s> ^| 153 774 | | ^ ::: ^ Počet vět <s> | 813 311 | |
^ Složení korpusu ^ Beletrie ^ pozice | 538 219 | | ^ Složení korpusu ^ Rudé právo 1952 (pozice) | 4 410 585 | |
^ ::: ^ ::: ^ slova | 436 548 | | ^ ::: ^ Rudé právo 1969 (pozice) | 3 603 645 | |
^ ::: ^ ::: ^ věty | 38 919 | | ^ ::: ^ Rudé právo 1977 (pozice) | 2 576 895 | |
^ ::: ^ Odborná literatura ^ pozice | 912 194 | | ^ ::: ^ Ostatní publikace (pozice) | 4 759 616 | |
^ ::: ^ ::: ^ slova | 758 227 | | ^ Rok zveřejnění ^| 2010 | |
^ ::: ^ ::: ^ věty | 60 098 | | |
^ ::: ^ Publicistika ^ pozice | 815 349 | | |
^ ::: ^ ::: ^ slova | 690 846 | | |
^ ::: ^ ::: ^ věty | 54 757 | | |
^ Rok zveřejnění ^^| 2021 | | |
</WRAP> | </WRAP> |
FIXME | |
| |
Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům: | ===== Složení korpusu Totalita ===== |
- Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti [[pojmy:segmentace|segmentace]], [[pojmy:token|tokenizace]] či [[pojmy:morfologicka_analyza|morfologického značkování]] korpusu [[cnk:syn2020|SYN2020]] nebo dalších korpusů z řady [[cnk:syn|SYN]], by měl poskytnout odpověď na otázku, jak měl být korpus anotován. | |
- Jako soubor trénovacích a testovacích dat pro metody automatického značkování, ať už jde o metody využívající lingvistická pravidla, nebo o metody stochastické, neuronové sítě apod. | |
| |
| Datové zdroje tvoří v úhrnu dva typy textů: |
| |
===== Složení korpusu Etalon ===== | 1. deník Rudé právo: celkem 400 souborů, celkem cca 10 milionů pozic (2/3 z celkového objemu), a to konkrétně ze tří období: |
| * ročník 1952 (dvě poslední čtvrtletí): 6. 6. -- 31. 12. 1952 |
| * ročník 1969 (druhé čtvrtletí): 1. 4. -- 31. 4. 1969 |
| * ročník 1977 (první čtvrtletí): 3. 1. -- 31. 3. 1977 |
| |
| 2. knihy a tiskoviny: |
| * 91 knih, celkem cca 5 milionů pozic (1/3 z celkového objemu), a to z let 1952 (23 knih), 1969 (10 knih) a 1977 (58 knih) |
| |
Korpus Etalon je složen z textů publicistických, odborných i z beletrie. Převážná část textů pochází z korpusu [[cnk:syn2010|SYN2010]]. Převažují texty publicistické (36 %) a odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka). Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upraveny, protože hlavním cílem naší práce bylo získat texty vzorové. Opravovali jsme zjevné překlepy, ale též případy, kdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání. | Cílem tvorby korpusu Totalita nebylo pokrýt celých 41 let, šlo jen o kriteriální výběr. Ten se opíral o tři historicky důležitá období zastoupená uvedenými kvartály Rudého práva a do značné míry i časově korelovanou volbou knih a tiskovin. Korpus Totalita navíc nereprezentuje celý tehdejší diskurz, protože obsahuje pouze jeho veřejnou, oficiální propagandou řízenou část. Najdeme v něm tedy typický a dominantní lexikon totalitní (tj. výrazivo specifické pro svou dobu z hlediska ideologického a politického, zvláště však propagandistického: //milice//, //kádrovat//, //uliční výbor//, F. Čermákem nazývané V-jazyk, „jazyk komunistických vládců“), tvořící obsah tehdy vydávaných tiskovin všeho druhu. Zcela však chybí tzv. O-jazyk, „jazyk ovládaných“ (//esenbák//, //mukl//, //vekslovat//). |
| |
===== Morfologická anotace ===== | **Další literatura** |
| |
Korpus Etalon je segmentován, lemmatizován a morfologicky anotován stejně jako [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|SYN2020]]: korpus obsahuje atributy [[cnk:syn2020#vicenasobna_lemmatizace_a_znackovani_agregat| word, synword]], [[cnk:syn2020#lemmatizace|lemma, sublemma]], [[cnk:syn2020#morfologicke_znackovani_tag|tag]] a [[cnk:syn2020#znackovani_sloves_verbtag|verbtag]]. | Čermák, F.: Slovník komunistické totality: léxémy, nominace a jejich užití. In: Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): //Slovník komunistické totality//. Praha: NLN, s. 16--39. |
| |
===== Zpřístupnění korpusu ===== | Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: //Jazyk v politických, ideologických a interkultúrnych vzťahoch//. Sociolinguistica Slovaca 8. Veda, Bratislava 2015, s. 50--60. |
| |
Korpus Etalon je zpřístupněn dvěma způsoby: | |
| |
- Korpus ČNK v rozhraní [[manualy:kontext|Kontext]]. | |
- Data ve vertikále: tato data je možné si stáhnout z úložiště [[http://hdl.handle.net/11234/1-3698|LINDAT/CLARIN]] (pro nekomerční účely). Tato data jsou rozdělena na segmenty o maximálně 100 slovech (bez interpunkce) a segmenty jsou promíchány. | |
| |
===== Poděkování ===== | |
| |
Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z [[http://utkl.ff.cuni.cz|ÚTKL]], hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb. | |
| |
===== Jak citovat korpus Totalita ===== | ===== Jak citovat korpus Totalita ===== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Skoumalová, H. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Kocek, J.: TOTALITA: korpus jazyka totality. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz | Skoumalová, H. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Kocek, J.: Totalita: korpus jazyka komunistické totality. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz |
</WRAP> | </WRAP> |
| |
===== Další literatura ===== | |
| |
<WRAP round tip 70%> | |
Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): Slovník komunistické totality. Praha: NLN. ISBN 978-80-7422-060-9. | |
| |
Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: Jazyk v politických, ideologických a interkultúrnych vzťahoch. Sociolinguistica Slovaca 8. Veda, Bratislava 2015, s. 50--60. | |
</WRAP> | |