Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze | ||
cnk:totalita [2023/02/22 13:39] – vytvořeno michalskrabal | cnk:totalita [2023/02/23 14:54] (aktuální) – [Totalita: korpus jazyka totality] michalkren | ||
---|---|---|---|
Řádek 2: | Řádek 2: | ||
====== Totalita: korpus jazyka totality ====== | ====== Totalita: korpus jazyka totality ====== | ||
- | Korpus | + | Korpus |
+ | |||
+ | Korpus byl převzat z doprovodného CD ke slovníku, nezměnila se ani uváděná metadata, ani lemmatizace a morfologické značkování. To sice na jednu stranu znamená, že **značkování neodpovídá soudobému standardu** značkování korpusů ČNK, na druhou stranu to však umožnilo **zachovat výsledky manuální lemmatizace**, | ||
<WRAP right 40%> | <WRAP right 40%> | ||
- | ^ <fs medium> | + | ^ <fs medium> |
- | ^ [[pojmy: | + | ^ [[pojmy: |
- | ^ ::: ^ Počet pozic bez interpunkce | + | ^ ::: ^ Počet pozic bez interpunkce | |
- | ^ [[pojmy: | + | ^ [[pojmy: |
- | ^ ::: ^ Počet vět < | + | ^ ::: ^ Počet vět <s> | |
- | ^ Složení korpusu ^ Beletrie ^ pozice | | + | ^ Složení korpusu ^ Rudé právo 1952 (pozice) | |
- | ^ ::: ^ ::: ^ slova | | + | ^ ::: ^ Rudé právo 1969 (pozice) |
- | ^ ::: ^ ::: ^ věty | 38 919 | | + | ^ ::: ^ Rudé právo 1977 (pozice) | |
- | ^ ::: ^ Odborná literatura ^ pozice | | + | ^ ::: ^ Ostatní publikace (pozice) | |
- | ^ ::: ^ ::: ^ slova | 758 227 | | + | ^ Rok zveřejnění ^| |
- | ^ ::: ^ ::: ^ věty | 60 098 | | + | |
- | ^ ::: ^ Publicistika ^ pozice | | + | |
- | ^ ::: ^ ::: ^ slova | 690 846 | | + | |
- | ^ ::: ^ ::: ^ věty | 54 757 | | + | |
- | ^ Rok zveřejnění | + | |
</ | </ | ||
- | FIXME | ||
- | Korpus obsahující 2 265 762 slov včetně interpunkce by měl sloužit dvěma hlavním účelům: | + | ===== Složení korpusu |
- | - Jako etalon pro korpus SYN2020, tzn. v případě pochybností o správnosti [[pojmy: | + | |
- | - Jako soubor trénovacích a testovacích dat pro metody automatického značkování, | + | |
+ | Datové zdroje tvoří v úhrnu dva typy textů: | ||
- | ===== Složení korpusu Etalon ===== | + | 1. deník Rudé právo: celkem 400 souborů, celkem cca 10 milionů pozic (2/3 z celkového objemu), a to konkrétně ze tří období: |
+ | * ročník 1952 (dvě poslední čtvrtletí): | ||
+ | * ročník 1969 (druhé čtvrtletí): | ||
+ | * ročník 1977 (první čtvrtletí): | ||
+ | |||
+ | 2. knihy a tiskoviny: | ||
+ | * 91 knih, celkem cca 5 milionů pozic (1/3 z celkového objemu), a to z let 1952 (23 knih), 1969 (10 knih) a 1977 (58 knih) | ||
- | Korpus Etalon je složen z textů publicistických, odborných i z beletrie. Převážná část textů pochází z korpusu [[cnk: | + | Cílem tvorby korpusu Totalita nebylo pokrýt celých 41 let, šlo jen o kriteriální výběr. Ten se opíral o tři historicky důležitá období zastoupená uvedenými kvartály Rudého práva |
- | ===== Morfologická anotace ===== | + | **Další literatura** |
- | Korpus Etalon je segmentován, lemmatizován a morfologicky anotován stejně jako [[cnk:syn2020# | + | Čermák, F.: Slovník komunistické totality: léxémy, nominace a jejich užití. In: Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): //Slovník komunistické totality//. Praha: NLN, s. 16--39. |
- | ===== Zpřístupnění korpusu ===== | + | Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: //Jazyk v politických, |
- | Korpus Etalon je zpřístupněn dvěma způsoby: | ||
- | |||
- | - Korpus ČNK v rozhraní [[manualy: | ||
- | - Data ve vertikále: tato data je možné si stáhnout z úložiště [[http:// | ||
- | |||
- | ===== Poděkování ===== | ||
- | |||
- | Ráda bych poděkovala všem anotátorům, | ||
===== Jak citovat korpus Totalita ===== | ===== Jak citovat korpus Totalita ===== | ||
<WRAP round tip 70%> | <WRAP round tip 70%> | ||
- | Skoumalová, | + | Skoumalová, |
</ | </ | ||
- | ===== Další literatura ===== | ||
- | <WRAP round tip 70%> | ||
- | Čermák, F. – Cvrček, V. – Schmiedtová, | ||
- | |||
- | Čermák, F.: Jazyk totality a dneška: jak odráží realitu a ovlivňuje lidské vědomí. Language of Totalitarianism and of Today: How it Reflects Reality and Influences Human Consciousness. In: Jazyk v politických, | ||
- | </ |