AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus textů Václava Klause

Korpus textů Václava Klause ('VK') je autorským korpusem Václava Klause staršího, který vznikl jako datový podklad diplomové práce Idiolekt Václava Klause: korpusová analýza. Zdrojem dat pro vytvoření korpusu byly Klausovy oficiální webové stránky. Tento web obsahuje jak texty určené primárně pro tyto stránky, tak i texty původně publikované jinde (např. články v novinách či rozhovory v časopisech), respektive vytvořené k určitým konkrétním událostem (např. prezidentské projevy či přednášky na konferencích).

Kromě vlastních Klausových textů stránky obsahují také texty, u kterých je Klaus pouze spoluautorem (např. společná prohlášení) či jejichž autorem není vůbec (např. sdělení tiskového odboru prezidentské kanceláře). Korpus 'VK' je však autorským korpusem v užším pojetí, a proto v něm tyto texty zahrnuty nejsou. U nezanedbatelného množství textů, především u velké části rozhovorů, nelze zcela spolehlivě určit modus (psaný, nebo mluvený). U prokazatelně mluvených textů (diskuse a některé rozhovory) zase situaci komplikují evidentní redakční úpravy Klausových promluv, přičemž míra i povaha těchto zásahů se mezi jednotlivými texty značně liší. Pro zachování autenticity jazykového materiálu tudíž korpus neobsahuje texty, jejichž modus nebylo možné jednoznačně určit, ani texty „čistě“ mluvené. Texty vybrané k sestavení korpusu lze vymezit následujícími čtyřmi podmínkami:

  1. pouze texty zveřejněné na webových stránkách www.klaus.cz;
  2. pouze texty, jejichž jediným (uvedeným) autorem je Václav Klaus;
  3. pouze texty v modu psaném a v modu psané mluvenosti (tj. texty původně psané, ale určené k mluvenému projevu);
  4. pouze texty zveřejněné do 31. října 2023 včetně.

Celý korpus sestává ze 2313 dokumentů, kterým bylo přiřazeno následujících 14 strukturních atributů:

Korpus korespondence Karla Havlíčka (kh-dopisy) obsahuje kompletní soubor dopisů, které souvisejí s osobou Karla Havlíčka (1821–1856). Spisovatel je vždy buď autorem, nebo přímým či nepřímým adresátem dopisů: zařazeny jsou i listy adresované redakci novin a časopisů, které Havlíček řídil. Dopisy jsou psány různými jazyky (česky, německy, polsky, francouzsky aj.). Celý soubor zahrnuje 1 203 dokumentů z let 1831–1856. Celkový rozsah korpusu je přibližně 500 tisíc slov.

Přepis textů probíhal formou transliterace, je zachován původní pravopis. Korpus není lemmatizován ani morfologicky značkován. Strukturní jednotky a metainformace obsažené v korpusu shrnuje následující tabulka:

strukturní atribut popis
doc.id označení dokumentu (různé hodnoty)
doc.title název textu (různé hodnoty)
doc.lang jazyk (čeština)
doc.src_lang zdrojový jazyk (čeština)
doc.author autor (Václav Klaus)
doc.pubDateYear rok publikování (hodnoty v rozpětí 1995–2023)
doc.date datum publikování (různé hodnoty)
doc.period Klausův úřad v době publikování textu (premiér, poslanec, předseda PSP, prezident, exprezident)
doc.modus modus (psaný, psaná mluvenost)
doc.registr registr (dokumenty, oborová literatura, publicistika, veřejná vystoupení)
doc.txtype typ či žánr textu (různé hodnoty)
doc.medium typ zdroje, kde byl text původně publikován (různé hodnoty)
doc.source konkrétní zdroj, kde byl text původně publikován (různé hodnoty)
doc.comment komentář či doplňující informace (různé hodnoty)

Celkový rozsah korpusu je 1 750 891 pozic (tokenů), z toho 1 475 640 pozic bez interpunkce. Všem pozicím bylo při automatické anotaci přiřazeno následujících 11 pozičních atributů:

poziční atribut počet typů s interpunkcí počet typů bez interpunkce
word 98 892 98 830
lc 88 814 88 752
sforma 98 896 98 831
lemma 36 604 36 555
lemma_lc 35 893 35 844
sublemma 37 942 37 892
sublemma_lc 37 225 37 175
tag 2013 2007
pos 15 14
case 8 8
verbtag 77 77

Schmid, O.: Idiolekt Václava Klause: korpusová analýza. Diplomová práce. Ústav českého jazyka a teorie komunikace FF UK, Praha 2024. Dostupný z WWW: <http://hdl.handle.net/20.500.11956/191695>