Both sides previous revisionPrevious revisionNext revision | Previous revision |
en:cnk:klaus [2024/11/18 17:25] – [Jak citovat] michalskrabal | en:cnk:klaus [2024/11/21 14:12] (current) – michalkren |
---|
====== Korpus textů Václava Klause ====== | ====== Václav Klaus Corpus ====== |
| |
**Korpus textů Václava Klause** ('VK') je autorským korpusem Václava Klause staršího, který vznikl jako datový podklad [[https://dspace.cuni.cz/handle/20.500.11956/191695|diplomové práce Idiolekt Václava Klause: korpusová analýza]]. Zdrojem dat pro vytvoření korpusu byly [[https://www.klaus.cz/|Klausovy oficiální webové stránky]]. Tento web obsahuje jak texty určené primárně pro tyto stránky, tak i texty původně publikované jinde (např. články v novinách či rozhovory v časopisech), respektive vytvořené k určitým konkrétním událostem (např. prezidentské projevy či přednášky na konferencích). | **Václav Klaus Corpus** ('VK') is an author corpus of texts by [[https://en.wikipedia.org/wiki/V%C3%A1clav_Klaus|Václav Klaus]] which was created as a data basis for [[https://dspace.cuni.cz/handle/20.500.11956/191695?locale-attribute=en|the thesis Václav Klaus’ Idiolect: A Corpus-based Analysis]]. The data used for the creation of the corpus were sourced from [[https://www.klaus.cz/|his official website]], which contains texts intended primarily for this website, as well as texts originally published elsewhere (e.g. newspaper articles or magazine interviews) or created for specific events (e.g., presidential speeches or lectures at conferences). |
| |
Kromě vlastních Klausových textů stránky obsahují také texty, u kterých je Klaus pouze spoluautorem (např. společná prohlášení) či jejichž autorem není vůbec (např. sdělení tiskového odboru prezidentské kanceláře). Korpus 'VK' je však [[pojmy:autorsky_korpus|autorským korpusem]] v užším pojetí, a proto v něm tyto texty zahrnuty nejsou. U nezanedbatelného množství textů, především u velké části rozhovorů, nelze zcela spolehlivě určit modus (psaný, nebo mluvený). U prokazatelně mluvených textů (diskuse a některé rozhovory) zase situaci komplikují evidentní redakční úpravy Klausových promluv, přičemž míra i povaha těchto zásahů se mezi jednotlivými texty značně liší. Pro zachování autenticity jazykového materiálu tudíž korpus neobsahuje texty, jejichž modus nebylo možné jednoznačně určit, ani texty „čistě“ mluvené. Texty vybrané k sestavení korpusu lze vymezit následujícími čtyřmi podmínkami: | In addition to Klaus’ texts, the website also contains texts for which Václav Klaus is only a co-author (e.g. joint statements) or for which he is not an author (e.g. communications from the press department of the presidential office). However, the 'VK' corpus is an author corpus in the narrower sense and, therefore, does not include these texts. For many texts, especially for a considerable portion of interviews, the mode (written or spoken) cannot be reliably determined. In the case of the spoken texts (the debates and some interviews), the situation is complicated by the apparent editorial modifications of Klaus’ speeches, the extent and nature of which vary considerably from text to text. To preserve the authenticity of the linguistic material, the corpus does not contain texts whose mode could not be clearly identified, nor does it include ‘purely’ spoken texts. The following four conditions can define the texts selected for the corpus: |
| |
- pouze texty zveřejněné na webových stránkách www.klaus.cz; | - only texts published on the website www.klaus.cz; |
- pouze texty, jejichž jediným (uvedeným) autorem je Václav Klaus; | - only texts whose sole (listed) author is Václav Klaus; |
- pouze texty v modu psaném a v modu psané mluvenosti (tj. texty původně psané, ale určené k mluvenému projevu); | - only texts in the written and written-to-be-spoken (i.e. texts originally written but intended to be spoken) mode; |
- pouze texty zveřejněné do 31. října 2023 včetně. | - only texts published up to and including 31st October 2023. |
| |
Celý korpus sestává ze 2313 dokumentů, kterým bylo přiřazeno následujících 14 strukturních atributů: | The entire corpus consists of 2,313 documents, which have been assigned the following 14 structural attributes: |
| |
^ strukturní atribut ^ popis ^ | ^ structural attribute ^ description (values) ^ |
| ''doc.id'' | označení dokumentu (různé hodnoty) | | | ''doc.id'' | document identification name (various values) | |
| ''doc.title'' | název textu (různé hodnoty) | | | ''doc.title'' | original title (various values) | |
| ''doc.lang'' | jazyk (//čeština//) | | | ''doc.lang'' | language (//Czech//) | |
| ''doc.src_lang'' | zdrojový jazyk (//čeština//) | | | ''doc.src_lang'' | source language (//Czech//) | |
| ''doc.author'' | autor (//Václav Klaus//) | | | ''doc.author'' | author (//Václav Klaus//) | |
| ''doc.pubDateYear'' | rok publikování (hodnoty v rozpětí 1995–2023) | | | ''doc.pubDateYear'' | year of publishing (values in scope of 1995–2023) | |
| ''doc.date'' | datum publikování (různé hodnoty) | | | ''doc.date'' | date of publishing (various values) | |
| ''doc.period'' | Klausův úřad v době publikování textu (//premiér//, //poslanec//, //předseda PSP//, //prezident//, //exprezident//) | | | ''doc.period'' | office held by Klaus at the time of publishing (//Prime Minister//, //MP//, //Speaker of the Chamber of Deputies//, //President//, //ex-president//) | |
| ''doc.modus'' | modus (//psaný//, //psaná mluvenost//) | | | ''doc.modus'' | mode (//written//, //written-to-be-spoken//) | |
| ''doc.registr'' | registr (//dokumenty//, //oborová literatura//, //publicistika//, //veřejná vystoupení//) | | | ''doc.registr'' | register (//documents//, //professional literature//, //journalism//, //public speeches//) | |
| ''doc.txtype'' | typ či žánr textu (různé hodnoty) | | | ''doc.txtype'' | text type or genre (various values) | |
| ''doc.medium'' | typ zdroje, kde byl text původně publikován (různé hodnoty) | | | ''doc.medium'' | type of the text source (various values) | |
| ''doc.source'' | konkrétní zdroj, kde byl text původně publikován (různé hodnoty) | | | ''doc.source'' | text source (various values) | |
| ''doc.comment'' | komentář či doplňující informace (různé hodnoty) | | | ''doc.comment'' | commentary or additional information (various values) | |
| |
Celkový rozsah korpusu je 1 750 891 pozic (tokenů), z toho 1 475 640 pozic bez interpunkce. Všem pozicím bylo při automatické anotaci přiřazeno následujících 11 pozičních atributů: | The corpus size is 1,750,891 tokens in total and 1,475,640 tokens excluding punctuation. All tokens were assigned the following 11 positional attributes during automatic annotation: |
| |
^ poziční atribut ^ počet typů s interpunkcí ^ počet typů bez interpunkce ^ | ^ positional attribute ^ type count incl. punctuation ^ type count excl. punctuation ^ |
| word | 98 892 | 98 830 | | | word | 98 892 | 98 830 | |
| lc | 88 814 | 88 752 | | | lc | 88 814 | 88 752 | |
| verbtag | 77 | 77 | | | verbtag | 77 | 77 | |
| |
===== Jak citovat ===== | ===== How to cite ===== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |