AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
cnk:totalita [2023/02/22 13:39] – vytvořeno michalskrabalcnk:totalita [2023/02/23 14:54] (aktuální) – [Totalita: korpus jazyka totality] michalkren
Řádek 2: Řádek 2:
 ====== Totalita: korpus jazyka totality ====== ====== Totalita: korpus jazyka totality ======
  
-Korpus Etalon je [[pojmy:synchronni|synchronní]] korpus psané češtiny, který byl manuálně [[pojmy:morfologicka_analyza|morfologicky označkován]] podle stejných zásad jako [[cnk:syn2020|SYN2020]]. +Korpus Totalita je [[pojmy:diachronni|diachronní]] korpus psané češtiny pokrývající období komunistické diktatury (1948--1989), který sloužil jako materiálová základna pro [[https://www.nln.cz/knihy/slovnik-komunisticke-totality/|Slovník komunistické totality]]. 
 + 
 +Korpus byl převzat z doprovodného CD ke slovníku, nezměnila se ani uváděná metadata, ani lemmatizace a morfologické značkování. To sice na jednu stranu znamená, že **značkování neodpovídá soudobému standardu** značkování korpusů ČNK, na druhou stranu to však umožnilo **zachovat výsledky manuální lemmatizace**, která před vznikem slovníku proběhla.  
  
 <WRAP right 40%> <WRAP right 40%>
-^ <fs medium>Název</fs> ^^^ <fs medium>Etalon</fs> ^ +^ <fs medium>Název</fs> ^^ <fs medium>Totalita</fs> ^ 
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] ^|  <html>2&nbsp;265&nbsp;762</html> |   +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  15 350 741 |   
-^ ::: ^ Počet pozic bez interpunkce ^|  1 885 621 |  +^ ::: ^ Počet pozic bez interpunkce |  12 909 992 |  
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> ^|  94 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  490 
-^ ::: ^ Počet vět <s> ^|  153 774 +^ ::: ^ Počet vět <s> |  813 311 
-^ Složení korpusu ^ Beletrie ^ pozice |  538 219 +^ Složení korpusu ^ Rudé právo 1952 (pozice|  4 410 585 
-^ ::: ^ ::: ^ slova |  436 548 +^ ::: ^ Rudé právo 1969 (pozice) |  3 603 645 
-^ ::: ^ ::: ^ věty |  38 919 | +^ ::: ^ Rudé právo 1977 (pozice|  2 576 895 
-^ ::: ^ Odborná literatura ^ pozice |  912 194 +^ ::: ^ Ostatní publikace (pozice|  4 759 616 
-^ ::: ^ ::: ^ slova |  758 227 | +^ Rok zveřejnění ^|  2010 |
-^ ::: ^ ::: ^ věty |  60 098 | +
-^ ::: ^ Publicistika ^ pozice |  815 349 | +
-^ ::: ^ ::: ^ slova |  690 846 | +
-^ ::: ^ ::: ^ věty |  54 757 +
-^ Rok zveřejnění ^^|  2021 |+
 </WRAP> </WRAP>
-FIXME 
  
-Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům: +===== Složení korpusu Totalita =====
-  - Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti [[pojmy:segmentace|segmentace]], [[pojmy:token|tokenizace]] či [[pojmy:morfologicka_analyza|morfologického značkování]] korpusu [[cnk:syn2020|SYN2020]] nebo dalších korpusů z řady [[cnk:syn|SYN]], by měl poskytnout odpověď na otázku, jak měl být korpus anotován. +
-  - Jako soubor trénovacích a testovacích dat pro metody automatického značkování, ať už jde o metody využívající lingvistická pravidla, nebo o metody stochastické, neuronové sítě apod. +
  
 +Datové zdroje tvoří v úhrnu dva typy textů:
  
-===== Složení korpusu Etalon =====+1. deník Rudé právo: celkem 400 souborů, celkem cca 10 milionů pozic (2/3 z celkového objemu), a to konkrétně ze tří období: 
 +  * ročník 1952 (dvě poslední čtvrtletí): 6. 6. -- 31. 12. 1952 
 +  * ročník 1969 (druhé čtvrtletí): 1. 4. -- 31. 4. 1969 
 +  * ročník 1977 (první čtvrtletí): 3. 1. -- 31. 3. 1977 
 +  
 +2. knihy a tiskoviny:  
 +  * 91 knih, celkem cca 5 milionů pozic (1/3 z celkového objemu), a to z let 1952 (23 knih), 1969 (10 knih) a 1977 (58 knih)
  
-Korpus Etalon je složen z textů publicistickýchodborných i z beletriePřevážná část textů pochází z korpusu [[cnk:syn2010|SYN2010]]. Převažují texty publicistické (36 %) odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka)Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upravenyprotože hlavním cílem naší práce bylo získat texty vzorovéOpravovali jsme zjevné překlepyale též případykdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání+Cílem tvorby korpusu Totalita nebylo pokrýt celých 41 letšlo jen o kriteriální výběrTen se opíral o tři historicky důležitá období zastoupená uvedenými kvartály Rudého práva do značné míry i časově korelovanou volbou knih a tiskovinKorpus Totalita navíc nereprezentuje celý tehdejší diskurz, protože obsahuje pouze jeho veřejnou, oficiální propagandou řízenou část. Najdeme v m tedy typický a dominantní lexikon totalitní (tj. výrazivo specifické pro svou dobu z hlediska ideologického a politickéhozvláště však propagandistického: //milice//, //kádrovat//, //uliční výbor//, FČermákem nazývané V-jazyk„jazyk komunistických vládců“)tvořící obsah tehdy vydávaných tiskovin všeho druhu. Zcela však chybí tzv. O-jazyk, „jazyk ovládaných“ (//esenbák//, //mukl//, //vekslovat//).
  
-===== Morfologická anotace =====+**Další literatura**
  
-Korpus Etalon je segmentovánlemmatizován a morfologicky anotován stejně jako [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|SYN2020]]korpus obsahuje atributy [[cnk:syn2020#vicenasobna_lemmatizace_a_znackovani_agregat| wordsynword]][[cnk:syn2020#lemmatizace|lemma, sublemma]][[cnk:syn2020#morfologicke_znackovani_tag|tag]] a [[cnk:syn2020#znackovani_sloves_verbtag|verbtag]]+ČermákF.Slovník komunistické totalityléxémy, nominace a jejich užití. InČermákF. – CvrčekV. – SchmiedtováV. (eds) (2010)//Slovník komunistické totality//. PrahaNLN, s. 16--39.
  
-===== Zpřístupnění korpusu =====+Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: //Jazyk v politických, ideologických a interkultúrnych vzťahoch//. Sociolinguistica Slovaca 8. Veda, Bratislava 2015, s. 50--60. 
  
-Korpus Etalon je zpřístupněn dvěma způsoby: 
- 
-  - Korpus ČNK v rozhraní [[manualy:kontext|Kontext]]. 
-  - Data ve vertikále: tato data je možné si stáhnout z úložiště [[http://hdl.handle.net/11234/1-3698|LINDAT/CLARIN]] (pro nekomerční účely). Tato data jsou rozdělena na segmenty o maximálně 100 slovech (bez interpunkce) a segmenty jsou promíchány. 
- 
-===== Poděkování ===== 
- 
-Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z [[http://utkl.ff.cuni.cz|ÚTKL]], hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb. 
  
 ===== Jak citovat korpus Totalita ===== ===== Jak citovat korpus Totalita =====
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Skoumalová, H. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Kocek, J.: TOTALITA: korpus jazyka totality. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz+Skoumalová, H. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Kocek, J.: Totalita: korpus jazyka komunistické totality. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz
 </WRAP> </WRAP>
  
-===== Další literatura ===== 
  
-<WRAP round tip 70%> 
-Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): Slovník komunistické totality. Praha: NLN. ISBN 978-80-7422-060-9. 
- 
-Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: Jazyk v politických, ideologických a interkultúrnych vzťahoch. Sociolinguistica Slovaca 8. Veda, Bratislava 2015, s. 50--60.  
-</WRAP>