AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:klaus [2024/11/18 17:25] – [How to cite] michalskrabalcnk:klaus [2024/11/21 14:09] (aktuální) michalkren
Řádek 1: Řádek 1:
 ====== Korpus textů Václava Klause ====== ====== Korpus textů Václava Klause ======
  
-**Corpus Klaus** ('VK'is an author corpus of [[https://en.wikipedia.org/wiki/V%C3%A1clav_Klaus|Václav Klaus’]] textswhich was created as a data basis for [[https://dspace.cuni.cz/handle/20.500.11956/191695?locale-attribute=en|the thesis Václav Klaus’ IdiolectA Corpus-based Analysis]]. The data used for the creation of the corpus were sourced from [[https://www.klaus.cz/|Klaus’ official website]], which contains texts intended primarily for this website, as well as texts originally published elsewhere (e.g. newspaper articles or magazine interviewsor created for specific events (e.g., presidential speeches or lectures at conferences).+**Korpus textů Václava Klause** ('VK'je autorským korpusem Václava Klause staršíhokterý vznikl jako datový podklad [[https://dspace.cuni.cz/handle/20.500.11956/191695|diplomové práce Idiolekt Václava Klausekorpusová analýza]]. Zdrojem dat pro vytvoření korpusu byly [[https://www.klaus.cz/|Klausovy oficiální webové stránky]]. Tento web obsahuje jak texty určené primárně pro tyto stránkytak i texty původně publikované jinde (napřčlánky v novinách či rozhovory v časopisech), respektive vytvořené k určitým konkrétním událostem (napřprezidentské projevy či přednášky na konferencích).
  
-In addition to Klaus’ textsthe website also contains texts for which Klaus is only a co-author (e.g. joint statementsor for which he is not an author (e.g. communications from the press department of the presidential office). However, the 'VK' corpus is an author corpus in the narrower sense andtherefore, does not include these textsFor many textsespecially for a considerable portion of interviewsthe mode (written or spokencannot be reliably determinedIn the case of the spoken texts (the debates and some interviews), the situation is complicated by the apparent editorial modifications of Klaus’ speeches, the extent and nature of which vary considerably from text to textTo preserve the authenticity of the linguistic materialthe corpus does not contain texts whose mode could not be clearly identifiednor does it include ‘purely’ spoken textsThe following four conditions can define the texts selected for the corpus:+Kromě vlastních Klausových textů stránky obsahují také textyu kterých je Václav Klaus pouze spoluautorem (napřspolečná prohlášeníči jejichž autorem není vůbec (např. sdělení tiskového odboru prezidentské kanceláře). Korpus 'VK' je však [[pojmy:autorsky_korpus|autorským korpusem]] v užším pojetía proto v něm tyto texty zahrnuty nejsouU nezanedbatelného množství textůpředevším u velké části rozhovorůnelze zcela spolehlivě určit modus (psaný, nebo mluvený). U prokazatelně mluvených textů (diskuse a některé rozhovoryzase situaci komplikují evidentní redakční úpravy Klausových promluvpřičemž míra i povaha těchto zásahů se mezi jednotlivými texty značně lišíPro zachování autenticity jazykového materiálu tudíž korpus neobsahuje textyjejichž modus nebylo možné jednoznačně určitani texty „čistě“ mluvenéTexty vybrané k sestavení korpusu lze vymezit následujícími čtyřmi podmínkami:
  
-  - only texts published on the website www.klaus.cz; +  - pouze texty zveřejněné na webových stránkách www.klaus.cz; 
-  - only texts whose sole (listedauthor is Václav Klaus; +  - pouze texty, jejichž jediným (uvedenýmautorem je Václav Klaus; 
-  - only texts in the written and written-to-be-spoken (i.e. texts originally written but intended to be spokenmode+  - pouze texty v modu psaném a v modu psané mluvenosti (tjtexty původně psané, ale určené k mluvenému projevu); 
-  - only texts published up to and including 31st October 2023.+  - pouze texty zveřejněné do 31. října 2023 včetně.
  
-The entire corpus consists of 2,313 documents, which have been assigned the following 14 structural attributes:+Celý korpus sestává ze 2313 dokumentůkterým bylo přiřazeno následujících 14 strukturních atributů:
  
-structural attribute description (values) +strukturní atribut popis 
-| ''doc.id''document identification name (various values) | +| ''doc.id''označení dokumentu (různé hodnoty) | 
-| ''doc.title''original title (various values) | +| ''doc.title''název textu (různé hodnoty) | 
-| ''doc.lang''language (//Czech//) | +| ''doc.lang''jazyk (//čeština//) | 
-| ''doc.src_lang''source language (//Czech//) | +| ''doc.src_lang''zdrojový jazyk (//čeština//) | 
-| ''doc.author''author (//Václav Klaus//) | +| ''doc.author''autor (//Václav Klaus//) | 
-| ''doc.pubDateYear''year of publishing (values in scope of 1995–2023) | +| ''doc.pubDateYear''rok publikování (hodnoty v rozpětí 1995–2023) | 
-| ''doc.date''date of publishing (various values) | +| ''doc.date''datum publikování (různé hodnoty) | 
-| ''doc.period''office held by Klaus at the time of publishing (//Prime Minister//, //MP//, //Speaker of the Chamber of Deputies//, //President//, //ex-president//) | +| ''doc.period'' | Klausův úřad v době publikování textu (//premiér//, //poslanec//, //předseda PSP//, //prezident//, //exprezident//) | 
-| ''doc.modus''mode (//written//, //written-to-be-spoken//) | +| ''doc.modus''modus (//psaný//, //psaná mluvenost//) | 
-| ''doc.registr''register (//documents//, //professional literature//, //journalism//, //public speeches//) | +| ''doc.registr''registr (//dokumenty//, //oborová literatura//, //publicistika//, //veřejná vystoupení//) | 
-| ''doc.txtype''text type or genre (various values) | +| ''doc.txtype''typ či žánr textu (různé hodnoty) | 
-| ''doc.medium''type of the text source (various values) | +| ''doc.medium''typ zdroje, kde byl text původně publikován (různé hodnoty) | 
-| ''doc.source'' | text source (various values) | +| ''doc.source''konkrétní zdroj, kde byl text původně publikován (různé hodnoty) | 
-| ''doc.comment''commentary or additional information (various values) |+| ''doc.comment''komentář či doplňující informace (různé hodnoty) |
  
-The corpus size is 1,750,891 tokens in total and 1,475,640 tokens excluding punctuationAll tokens were assigned the following 11 positional attributes during automatic annotation:+Celkový rozsah korpusu je 1 750 891 pozic (tokenů)z toho 1 475 640 pozic bez interpunkceVšem pozicím bylo při automatické anotaci přiřazeno následujících 11 pozičních atributů:
  
-positional attribute type count incl. punctuation type count excl. punctuation ^+poziční atribut počet typů s interpunkcí počet typů bez interpunkce ^
 | word | 98 892 | 98 830 | | word | 98 892 | 98 830 |
 | lc | 88 814 | 88 752 | | lc | 88 814 | 88 752 |
Řádek 43: Řádek 43:
 | verbtag | 77 | 77 | | verbtag | 77 | 77 |
  
-===== How to cite =====+===== Jak citovat =====
  
 <WRAP round tip 70%> <WRAP round tip 70%>