====== Korpus textů Václava Klause ====== **Korpus textů Václava Klause** ('VK') je autorským korpusem Václava Klause staršího, který vznikl jako datový podklad [[https://dspace.cuni.cz/handle/20.500.11956/191695|diplomové práce Idiolekt Václava Klause: korpusová analýza]]. Zdrojem dat pro vytvoření korpusu byly [[https://www.klaus.cz/|Klausovy oficiální webové stránky]]. Tento web obsahuje jak texty určené primárně pro tyto stránky, tak i texty původně publikované jinde (např. články v novinách či rozhovory v časopisech), respektive vytvořené k určitým konkrétním událostem (např. prezidentské projevy či přednášky na konferencích). Kromě vlastních Klausových textů stránky obsahují také texty, u kterých je Václav Klaus pouze spoluautorem (např. společná prohlášení) či jejichž autorem není vůbec (např. sdělení tiskového odboru prezidentské kanceláře). Korpus 'VK' je však [[pojmy:autorsky_korpus|autorským korpusem]] v užším pojetí, a proto v něm tyto texty zahrnuty nejsou. U nezanedbatelného množství textů, především u velké části rozhovorů, nelze zcela spolehlivě určit modus (psaný, nebo mluvený). U prokazatelně mluvených textů (diskuse a některé rozhovory) zase situaci komplikují evidentní redakční úpravy Klausových promluv, přičemž míra i povaha těchto zásahů se mezi jednotlivými texty značně liší. Pro zachování autenticity jazykového materiálu tudíž korpus neobsahuje texty, jejichž modus nebylo možné jednoznačně určit, ani texty „čistě“ mluvené. Texty vybrané k sestavení korpusu lze vymezit následujícími čtyřmi podmínkami: - pouze texty zveřejněné na webových stránkách www.klaus.cz; - pouze texty, jejichž jediným (uvedeným) autorem je Václav Klaus; - pouze texty v modu psaném a v modu psané mluvenosti (tj. texty původně psané, ale určené k mluvenému projevu); - pouze texty zveřejněné do 31. října 2023 včetně. Celý korpus sestává ze 2313 dokumentů, kterým bylo přiřazeno následujících 14 strukturních atributů: ^ strukturní atribut ^ popis ^ | ''doc.id'' | označení dokumentu (různé hodnoty) | | ''doc.title'' | název textu (různé hodnoty) | | ''doc.lang'' | jazyk (//čeština//) | | ''doc.src_lang'' | zdrojový jazyk (//čeština//) | | ''doc.author'' | autor (//Václav Klaus//) | | ''doc.pubDateYear'' | rok publikování (hodnoty v rozpětí 1995–2023) | | ''doc.date'' | datum publikování (různé hodnoty) | | ''doc.period'' | Klausův úřad v době publikování textu (//premiér//, //poslanec//, //předseda PSP//, //prezident//, //exprezident//) | | ''doc.modus'' | modus (//psaný//, //psaná mluvenost//) | | ''doc.registr'' | registr (//dokumenty//, //oborová literatura//, //publicistika//, //veřejná vystoupení//) | | ''doc.txtype'' | typ či žánr textu (různé hodnoty) | | ''doc.medium'' | typ zdroje, kde byl text původně publikován (různé hodnoty) | | ''doc.source'' | konkrétní zdroj, kde byl text původně publikován (různé hodnoty) | | ''doc.comment'' | komentář či doplňující informace (různé hodnoty) | Celkový rozsah korpusu je 1 750 891 pozic (tokenů), z toho 1 475 640 pozic bez interpunkce. Všem pozicím bylo při automatické anotaci přiřazeno následujících 11 pozičních atributů: ^ poziční atribut ^ počet typů s interpunkcí ^ počet typů bez interpunkce ^ | word | 98 892 | 98 830 | | lc | 88 814 | 88 752 | | sforma | 98 896 | 98 831 | | lemma | 36 604 | 36 555 | | lemma_lc | 35 893 | 35 844 | | sublemma | 37 942 | 37 892 | | sublemma_lc | 37 225 | 37 175 | | tag | 2013 | 2007 | | pos | 15 | 14 | | case | 8 | 8 | | verbtag | 77 | 77 | ===== Jak citovat ===== Schmid, O.: //Korpus textů Václava Klause//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: http://www.korpus.cz Schmid, O.: //Idiolekt Václava Klause: korpusová analýza.// Diplomová práce. Ústav českého jazyka a teorie komunikace FF UK, Praha 2024. Dostupný z WWW: