Korpus prezidentských projevů Speeches
Korpus oficiálních prezidentských projevů Speeches byl vytvořen na základě spolupráce ČNK s Universitou v Oslo. Svým zaměřením na připravené written to be spoken texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou Oral (mluvené neformální a nepřipravené promluvy) a řadou SYN (oficiální veřejný psaný jazyk).
| Název | Speeches |
|---|---|
| Počet pozic (tokenů) | 248 839 |
| Počet pozic (tokenů) bez interpunkce a dalších značek | 217 314 |
| Počet slovních tvarů (wordů) | 30 909 |
| Počet lemmat | 12 522 |
| Počet projevů | 151 |
| Počet vět | 11 208 |
| Počet unikátních (různých) mluvčích | 14 |
Cílem korpusu je pokrývat období let 1918 až 2015, a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem a zaměřením se řadí mezi malé a relativně úzce specializované korpusy.
Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění, a u novějších textů také webové stránky politiků (či Pražského hradu). K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální.
Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování).
Strukturní atributy
Z hlediska metadat je korpus označkován na úrovni jednotlivých projevů (struktura <doc>), a to následujícími strukturními atributy:
id- unikátní identifikátor projevuspeaker- jméno mluvčího projevuyear- rok pronesení projevudate- datum pronesení projevutitle- titulek projevu (většinou přidaný až pro tištěné vydání)office- úřad zastávaný mluvčímoccasion- příležitost, při níž byl projev pronesenmedium- médium, jakým byl projev přenášen (vysílán)source- zdroj, z něhož byl text získánlink- odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný sesource)altsource- alternativní zdroj (je-li zdrojů víc)notes- poznámky a různočtenístatus- stupeň ruční kontroly textu
V textech byla dále provedena větná segmentace (naznačená strukturními značkami <s>).
Atribut: occasion
Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut doc.occasion):
| Příležitost (occasion) | Datum | Označení v metadatech |
|---|---|---|
| novoroční projev | 1. ledna | New Year's Address |
| projev ke dni vzniku samostatného československého státu | 28. října | Republic day |
| vánoční poselství | 19. až 26. prosince | Christmas message |
| výročí protektorátu | 15. nebo 16. března | Protectorate Anniversary |
Atribut: speaker
Z mluvčích jsou v korpusu Speeches zastoupeni tito politici (v abecedním pořadí):
Poziční atributy
Korpus Speeches je lemmatizován a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý tagset je shodný s tím, který se užívá např. pro korpus SYN2010, přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván.
Jak citovat korpus Speeches
Cvrček, V. – Truneček, P. – Horký, V.: Korpus prezidentských projevů Speeches. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz