Toto je starší verze dokumentu!
Korpus textů Václava Klause
Korpus textů Václava Klause ('VK') je autorským korpusem Václava Klause staršího, který vznikl jako datový podklad diplomové práce Idiolekt Václava Klause: korpusová analýza. Zdrojem dat pro vytvoření korpusu byly Klausovy oficiální webové stránky. Tento web obsahuje jak texty určené primárně pro tyto stránky, tak i texty původně publikované jinde (např. články v novinách či rozhovory v časopisech), respektive vytvořené k určitým konkrétním událostem (např. prezidentské projevy či přednášky na konferencích).
Kromě vlastních Klausových textů stránky obsahují také texty, u kterých je Klaus pouze spoluautorem (např. společná prohlášení) či jejichž autorem není vůbec (např. sdělení tiskového odboru prezidentské kanceláře). Korpus 'VK' je však autorským korpusem v užším pojetí, a proto v něm tyto texty zahrnuty nejsou. U nezanedbatelného množství textů, především u velké části rozhovorů, nelze zcela spolehlivě určit modus (psaný, nebo mluvený). U prokazatelně mluvených textů (diskuse a některé rozhovory) zase situaci komplikují evidentní redakční úpravy Klausových promluv, přičemž míra i povaha těchto zásahů se mezi jednotlivými texty značně liší. Pro zachování autenticity jazykového materiálu tudíž korpus neobsahuje texty, jejichž modus nebylo možné jednoznačně určit, ani texty „čistě“ mluvené. Texty vybrané k sestavení korpusu lze vymezit následujícími čtyřmi podmínkami:
- pouze texty zveřejněné na webových stránkách www.klaus.cz;
- pouze texty, jejichž jediným (uvedeným) autorem je Václav Klaus;
- pouze texty v modu psaném a v modu psané mluvenosti (tj. texty původně psané, ale určené k mluvenému projevu);
- pouze texty zveřejněné do 31. října 2023 včetně.
Celý korpus sestává ze 2313 dokumentů, kterým bylo přiřazeno následujících 14 strukturních atributů:
strukturní atribut | popis |
---|---|
doc.id | označení dokumentu (různé hodnoty) |
doc.title | název textu (různé hodnoty) |
doc.lang | jazyk (čeština) |
doc.src_lang | zdrojový jazyk (čeština) |
doc.author | autor (Václav Klaus) |
doc.pubDateYear | rok publikování (hodnoty v rozpětí 1995–2023) |
doc.date | datum publikování (různé hodnoty) |
doc.period | Klausův úřad v době publikování textu (premiér, poslanec, předseda PSP, prezident, exprezident) |
doc.modus | modus (psaný, psaná mluvenost) |
doc.registr | registr (dokumenty, oborová literatura, publicistika, veřejná vystoupení) |
doc.txtype | typ či žánr textu (různé hodnoty) |
doc.medium | typ zdroje, kde byl text původně publikován (různé hodnoty) |
doc.source | konkrétní zdroj, kde byl text původně publikován (různé hodnoty) |
doc.comment | komentář či doplňující informace (různé hodnoty) |
Celkový rozsah korpusu je 1 750 891 pozic (tokenů), z toho 1 475 640 pozic bez interpunkce. Všem pozicím bylo při automatické anotaci přiřazeno následujících 11 pozičních atributů:
poziční atribut | počet typů s interpunkcí | počet typů bez interpunkce |
---|---|---|
word | 98 892 | 98 830 |
lc | 88 814 | 88 752 |
sforma | 98 896 | 98 831 |
lemma | 36 604 | 36 555 |
lemma_lc | 35 893 | 35 844 |
sublemma | 37 942 | 37 892 |
sublemma_lc | 37 225 | 37 175 |
tag | 2013 | 2007 |
pos | 15 | 14 |
case | 8 | 8 |
verbtag | 77 | 77 |
Schmid, O.: Idiolekt Václava Klause: korpusová analýza. Diplomová práce. Ústav českého jazyka a teorie komunikace FF UK, Praha 2024. Dostupný z WWW: <http://hdl.handle.net/20.500.11956/191695>