AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:totalita [2023/02/22 13:39] – vytvořeno michalskrabalcnk:totalita [2023/02/22 16:17] – [Složení korpusu Totalita] michalskrabal
Řádek 2: Řádek 2:
 ====== Totalita: korpus jazyka totality ====== ====== Totalita: korpus jazyka totality ======
  
-Korpus Etalon je [[pojmy:synchronni|synchronní]] korpus psané češtiny, který byl manuálně [[pojmy:morfologicka_analyza|morfologicky označkován]] podle stejných zásad jako [[cnk:syn2020|SYN2020]]. +Korpus Totalita je [[pojmy:diachronni|diachronní]] korpus psané češtiny pokrývající období komunistické diktatury (1948--1989), který sloužil jako materiálová základna pro [[https://www.nln.cz/knihy/slovnik-komunisticke-totality/|Slovník komunistické totality]]. Korpus byl převzat z doprovodného CD ke slovníku, nezměnila se ani uváděná metadata, ani lemmatizace a morfologické značkování. To sice na jednu stranu znamená, že značkování již neodpovídá soudobému standardu značkování korpusů ČNK, na druhou stranu to však umožnilo zachovat výsledky manuální lemmatizace, která před vznikem slovníku proběhla.  
  
 <WRAP right 40%> <WRAP right 40%>
-^ <fs medium>Název</fs> ^^^ <fs medium>Etalon</fs> ^ +^ <fs medium>Název</fs> ^^ <fs medium>Totalita</fs> ^ 
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] ^|  <html>2&nbsp;265&nbsp;762</html> |   +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  15 350 741 |   
-^ ::: ^ Počet pozic bez interpunkce ^|  1 885 621 |  +^ ::: ^ Počet pozic bez interpunkce |  12 909 992 |  
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> ^|  94 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  490 
-^ ::: ^ Počet vět <s> ^|  153 774 +^ ::: ^ Počet vět <s> |  813 311 
-^ Složení korpusu ^ Beletrie ^ pozice |  538 219 +^ Složení korpusu ^ Rudé právo 1952 (pozice|  4 410 585 
-^ ::: ^ ::: ^ slova |  436 548 +^ ::: ^ Rudé právo 1969 (pozice) |  3 603 645 
-^ ::: ^ ::: ^ věty |  38 919 | +^ ::: ^ Rudé právo 1977 (pozice|  2 576 895 
-^ ::: ^ Odborná literatura ^ pozice |  912 194 +^ ::: ^ Ostatní publikace (pozice|  4 759 616 
-^ ::: ^ ::: ^ slova |  758 227 | +^ Rok zveřejnění ^|  2010 |
-^ ::: ^ ::: ^ věty |  60 098 | +
-^ ::: ^ Publicistika ^ pozice |  815 349 | +
-^ ::: ^ ::: ^ slova |  690 846 | +
-^ ::: ^ ::: ^ věty |  54 757 +
-^ Rok zveřejnění ^^|  2021 |+
 </WRAP> </WRAP>
-FIXME 
  
-Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům: +===== Složení korpusu Totalita =====
-  - Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti [[pojmy:segmentace|segmentace]], [[pojmy:token|tokenizace]] či [[pojmy:morfologicka_analyza|morfologického značkování]] korpusu [[cnk:syn2020|SYN2020]] nebo dalších korpusů z řady [[cnk:syn|SYN]], by měl poskytnout odpověď na otázku, jak měl být korpus anotován. +
-  - Jako soubor trénovacích a testovacích dat pro metody automatického značkování, ať už jde o metody využívající lingvistická pravidla, nebo o metody stochastické, neuronové sítě apod. +
  
 +Datové zdroje tvoří v úhrnu dva typy textů:
  
-===== Složení korpusu Etalon =====+1. deník Rudé právo: celkem 400 souborů, celkem cca 10 milionů pozic (2/3 z celkového objemu), a to konkrétně ze tří období: 
 +  * ročník 1952 (dvě poslední čtvrtletí): 6. 6. -- 31. 12. 1952 
 +  * ročník 1969 (druhé čtvrtletí): 1. 4. -- 31. 4. 1969 
 +  * ročník 1977 (první čtvrtletí): 3. 1. -- 31. 3. 1977 
 +  
 +2. knihy a tiskoviny:  
 +  * 91 knih, celkem cca 5 milionů pozic (1/3 z celkového objemu), a to z let 1952 (23 knih), 1969 (10 knih) a 1977 (58 knih)
  
-Korpus Etalon je složen z textů publicistickýchodborných i z beletriePřevážná část textů pochází z korpusu [[cnk:syn2010|SYN2010]]. Převažují texty publicistické (36 %) odborné (40 %), ale beletrie (24 %) je též významně zastoupena (viz tabulka)Některé texty nejsou v korpusu celé, protože by způsobily nevyváženost stylů. Jiné texty jsou redakčně upravenyprotože hlavním cílem naší práce bylo získat texty vzorovéOpravovali jsme zjevné překlepyale též případykdy při počítačovém zpracování došlo k porušení textů a k jejich přeskládání+Cílem tvorby korpusu Totalita nebylo pokrýt celých 41 letšlo jen o kriteriální výběrTen se opíral o tři historicky důležitá období zastoupená uvedenými kvartály Rudého práva do značné míry i časově korelovanou volbou knih a tiskovinKorpus Totalita navíc nereprezentuje celý tehdejší diskurz, protože obsahuje pouze jeho veřejnou, oficiální propagandou řízenou část. Najdeme v m tedy typický a dominantní lexikon totalitní (tj. výrazivo specifické pro svou dobu z hlediska ideologického a politickéhozvláště však propagandistického: //milice//, //kádrovat//, //uliční výbor//, FČermákem nazývané V-jazyk„jazyk komunistických vládců“)tvořící obsah tehdy vydávaných tiskovin všeho druhu. Zcela však chybí tzv. O-jazyk, „jazyk ovládaných“ (//esenbák//, //mukl//, //vekslovat//).
  
-===== Morfologická anotace =====+**Další literatura**
  
-Korpus Etalon je segmentovánlemmatizován a morfologicky anotován stejně jako [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|SYN2020]]korpus obsahuje atributy [[cnk:syn2020#vicenasobna_lemmatizace_a_znackovani_agregat| wordsynword]][[cnk:syn2020#lemmatizace|lemma, sublemma]][[cnk:syn2020#morfologicke_znackovani_tag|tag]] a [[cnk:syn2020#znackovani_sloves_verbtag|verbtag]]+ČermákF.Slovník komunistické totalityléxémy, nominace a jejich užití. InČermákF. – CvrčekV. – SchmiedtováV. (eds) (2010)//Slovník komunistické totality//. PrahaNLN, s. 16--39.
  
-===== Zpřístupnění korpusu =====+Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: //Jazyk v politických, ideologických a interkultúrnych vzťahoch//. Sociolinguistica Slovaca 8. Veda, Bratislava 2015, s. 50--60. 
  
-Korpus Etalon je zpřístupněn dvěma způsoby: 
- 
-  - Korpus ČNK v rozhraní [[manualy:kontext|Kontext]]. 
-  - Data ve vertikále: tato data je možné si stáhnout z úložiště [[http://hdl.handle.net/11234/1-3698|LINDAT/CLARIN]] (pro nekomerční účely). Tato data jsou rozdělena na segmenty o maximálně 100 slovech (bez interpunkce) a segmenty jsou promíchány. 
- 
-===== Poděkování ===== 
- 
-Ráda bych poděkovala všem anotátorům, kteří se na vzniku Etalonu podíleli. Byla jich celá řada a nemohu je zde vyjmenovat všechny. Jmenovitě chci ale poděkovat kolegům z [[http://utkl.ff.cuni.cz|ÚTKL]], hlavně Mileně Hnátkové, Vladimíru Petkevičovi a Tomáši Jelínkovi za pomoc při testování a odhalování chyb. 
  
 ===== Jak citovat korpus Totalita ===== ===== Jak citovat korpus Totalita =====
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Skoumalová, H. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Kocek, J.: TOTALITA: korpus jazyka totality. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz+Skoumalová, H. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Kocek, J.: Totalita: korpus jazyka komunistické totality. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz
 </WRAP> </WRAP>
  
-===== Další literatura ===== 
  
-<WRAP round tip 70%> 
-Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): Slovník komunistické totality. Praha: NLN. ISBN 978-80-7422-060-9. 
- 
-Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: Jazyk v politických, ideologických a interkultúrnych vzťahoch. Sociolinguistica Slovaca 8. Veda, Bratislava 2015, s. 50--60.  
-</WRAP>