Korpus oficiálních prezidentských projevů Speeches byl vytvořen na základě spolupráce ČNK s Universitou v Oslo. Svým zaměřením na připravené written to be spoken texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou Oral (mluvené neformální a nepřipravené promluvy) a řadou SYN (oficiální veřejný psaný jazyk).
Název | Speeches |
---|---|
Počet pozic (tokenů) | 248 839 |
Počet pozic (tokenů) bez interpunkce a dalších značek | 217 314 |
Počet slovních tvarů (wordů) | 30 909 |
Počet lemmat | 12 522 |
Počet projevů | 151 |
Počet vět | 11 208 |
Počet unikátních (různých) mluvčích | 14 |
Cílem korpusu je pokrývat období let 1918 až 2015, a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem a zaměřením se řadí mezi malé a relativně úzce specializované korpusy.
Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění, a u novějších textů také webové stránky politiků (či Pražského hradu). K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální.
Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování).
Z hlediska metadat je korpus označkován na úrovni jednotlivých projevů (struktura <doc>
), a to následujícími strukturními atributy:
id
- unikátní identifikátor projevuspeaker
- jméno mluvčího projevuyear
- rok pronesení projevudate
- datum pronesení projevutitle
- titulek projevu (většinou přidaný až pro tištěné vydání)office
- úřad zastávaný mluvčímoccasion
- příležitost, při níž byl projev pronesenmedium
- médium, jakým byl projev přenášen (vysílán)source
- zdroj, z něhož byl text získánlink
- odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se source
)altsource
- alternativní zdroj (je-li zdrojů víc)notes
- poznámky a různočtenístatus
- stupeň ruční kontroly textu
V textech byla dále provedena větná segmentace (naznačená strukturními značkami <s>
).
Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut doc.occasion
):
Příležitost (occasion) | Datum | Označení v metadatech |
---|---|---|
novoroční projev | 1. ledna | New Year's Address |
projev ke dni vzniku samostatného československého státu | 28. října | Republic day |
vánoční poselství | 19. až 26. prosince | Christmas message |
výročí protektorátu | 15. nebo 16. března | Protectorate Anniversary |
Z mluvčích jsou v korpusu Speeches zastoupeni tito politici (v abecedním pořadí):
Korpus Speeches je lemmatizován a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý tagset je shodný s tím, který se užívá např. pro korpus SYN2010, přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván.
Cvrček, V. – Truneček, P. – Horký, V.: Korpus prezidentských projevů Speeches. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz