Nastavení

Korpus prezidentských projevů Speeches

Korpus oficiálních prezidentských projevů Speeches byl vytvořen na základě spolupráce ČNK s Universitou v Oslo. Svým zaměřením na připravené written to be spoken texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou Oral (mluvené neformální a nepřipravené promluvy) a řadou SYN (oficiální veřejný psaný jazyk).

Název Speeches
Počet pozic (tokenů) 248 839
Počet pozic (tokenů) bez interpunkce a dalších značek 217 314
Počet slovních tvarů (wordů) 30 909
Počet lemmat 12 522
Počet projevů 151
Počet vět 11 208
Počet unikátních (různých) mluvčích 14

Cílem korpusu je pokrývat období let 1918 až 2015, a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem a zaměřením se řadí mezi malé a relativně úzce specializované korpusy.

Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění, a u novějších textů také webové stránky politiků (či Pražského hradu). K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální.

Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování).

Strukturní atributy

Z hlediska metadat je korpus označkován na úrovni jednotlivých projevů (struktura <doc>), a to následujícími strukturními atributy:

  • id - unikátní identifikátor projevu
  • speaker - jméno mluvčího projevu
  • year - rok pronesení projevu
  • date - datum pronesení projevu
  • title - titulek projevu (většinou přidaný až pro tištěné vydání)
  • office - úřad zastávaný mluvčím
  • occasion - příležitost, při níž byl projev pronesen
  • medium - médium, jakým byl projev přenášen (vysílán)
  • source - zdroj, z něhož byl text získán
  • link - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se source)
  • altsource - alternativní zdroj (je-li zdrojů víc)
  • notes - poznámky a různočtení
  • status - stupeň ruční kontroly textu

V textech byla dále provedena větná segmentace (naznačená strukturními značkami <s>).

Atribut: occasion

Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut doc.occasion):

Příležitost (occasion) Datum Označení v metadatech
novoroční projev 1. ledna New Year's Address
projev ke dni vzniku samostatného československého státu 28. října Republic day
vánoční poselství 19. až 26. prosince Christmas message
výročí protektorátu 15. nebo 16. března Protectorate Anniversary

Atribut: speaker

Z mluvčích jsou v korpusu Speeches zastoupeni tito politici (v abecedním pořadí):

Jméno Počet projevů
Beneš, Edvard 21
Gottwald, Klement 6
Hácha, Emil 13
Havel, Václav 25
Husák, Gustáv 17
Klaus, Václav 21
Masaryk, Tomáš Garrigue 17
Novotný, Antonín 11
Svoboda, Ludvík 7
Uhde, Milan 1
X (nezjištěný)1) 3
Y (nezjistitelný)2) 1
Zápotocký, Antonín 4
Zeman, Miloš 4

Poziční atributy

Korpus Speeches je lemmatizován a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý tagset je shodný s tím, který se užívá např. pro korpus SYN2010, přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván.

Jak citovat korpus Speeches

Cvrček, V. – Truneček, P. – Horký, V.: Korpus prezidentských projevů Speeches. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz

1) Projevy k 28. říjnu z let 1985–1987, jejichž autorství je nejasné, např. projev Historie žije dneškem, uveřejněný v Rudém právu 28. 10. 1986 bez explicitně uvedeného autorství.
2) Projev Národní rada k 28. říjnu z roku 1938, jehož autorství je kolektivní.