This is an old revision of the document!
Korpus textů Václava Klause
Korpus textů Václava Klause ('VK') je autorským korpusem Václava Klause staršího, který vznikl jako datový podklad diplomové práce Idiolekt Václava Klause: korpusová analýza. Zdrojem dat pro vytvoření korpusu byly Klausovy oficiální webové stránky. Tento web obsahuje jak texty určené primárně pro tyto stránky, tak i texty původně publikované jinde (např. články v novinách či rozhovory v časopisech), respektive vytvořené k určitým konkrétním událostem (např. prezidentské projevy či přednášky na konferencích).
Kromě vlastních Klausových textů stránky obsahují také texty, u kterých je Klaus pouze spoluautorem (např. společná prohlášení) či jejichž autorem není vůbec (např. sdělení tiskového odboru prezidentské kanceláře). Korpus 'VK' je však autorským korpusem v užším pojetí, a proto v něm tyto texty zahrnuty nejsou. U nezanedbatelného množství textů, především u velké části rozhovorů, nelze zcela spolehlivě určit modus (psaný, nebo mluvený). U prokazatelně mluvených textů (diskuse a některé rozhovory) zase situaci komplikují evidentní redakční úpravy Klausových promluv, přičemž míra i povaha těchto zásahů se mezi jednotlivými texty značně liší. Pro zachování autenticity jazykového materiálu tudíž korpus neobsahuje texty, jejichž modus nebylo možné jednoznačně určit, ani texty „čistě“ mluvené. Texty vybrané k sestavení korpusu lze vymezit následujícími čtyřmi podmínkami:
- pouze texty zveřejněné na webových stránkách www.klaus.cz;
- pouze texty, jejichž jediným (uvedeným) autorem je Václav Klaus;
- pouze texty v modu psaném a v modu psané mluvenosti (tj. texty původně psané, ale určené k mluvenému projevu);
- pouze texty zveřejněné do 31. října 2023 včetně.
Celý korpus sestává ze 2313 dokumentů, kterým bylo přiřazeno následujících 14 strukturních atributů:
strukturní atribut | popis |
---|---|
doc.id | označení dokumentu (různé hodnoty) |
doc.title | název textu (různé hodnoty) |
doc.lang | jazyk (čeština) |
doc.src_lang | zdrojový jazyk (čeština) |
doc.author | autor (Václav Klaus) |
doc.pubDateYear | rok publikování (hodnoty v rozpětí 1995–2023) |
doc.date | datum publikování (různé hodnoty) |
doc.period | Klausův úřad v době publikování textu (premiér, poslanec, předseda PSP, prezident, exprezident) |
doc.modus | modus (psaný, psaná mluvenost) |
doc.registr | registr (dokumenty, oborová literatura, publicistika, veřejná vystoupení) |
doc.txtype | typ či žánr textu (různé hodnoty) |
doc.medium | typ zdroje, kde byl text původně publikován (různé hodnoty) |
doc.source | konkrétní zdroj, kde byl text původně publikován (různé hodnoty) |
doc.comment | komentář či doplňující informace (různé hodnoty) |
Celkový rozsah korpusu je 1 750 891 pozic (tokenů), z toho 1 475 640 pozic bez interpunkce. Všem pozicím bylo při automatické anotaci přiřazeno následujících 11 pozičních atributů:
poziční atribut | počet typů s interpunkcí | počet typů bez interpunkce |
---|---|---|
word | 98 892 | 98 830 |
lc | 88 814 | 88 752 |
sforma | 98 896 | 98 831 |
lemma | 36 604 | 36 555 |
lemma_lc | 35 893 | 35 844 |
sublemma | 37 942 | 37 892 |
sublemma_lc | 37 225 | 37 175 |
tag | 2013 | 2007 |
pos | 15 | 14 |
case | 8 | 8 |
verbtag | 77 | 77 |
Jak citovat
Schmid, O.: Idiolekt Václava Klause: korpusová analýza. Diplomová práce. Ústav českého jazyka a teorie komunikace FF UK, Praha 2024. Dostupný z WWW: <http://hdl.handle.net/20.500.11956/191695>