~~NOTOC~~
====== Korpus prezidentských projevů Speeches ======
Korpus oficiálních prezidentských projevů **Speeches** byl vytvořen na základě spolupráce ČNK s [[http://www.hf.uio.no/ilos/english/|Universitou v Oslo]]. Svým zaměřením na připravené //written to be spoken// texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou [[cnk:oral2013|Oral]] (mluvené neformální a nepřipravené promluvy) a řadou [[cnk:syn2010|SYN]] (oficiální veřejný psaný jazyk).
^ Název | Speeches |
^ Počet [[pojmy:token|pozic (tokenů)]] | 248 839 |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | 217 314 |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 30 909 |
^ Počet [[pojmy:lemma| lemmat]] | 12 522 |
^ Počet projevů | 151 |
^ Počet vět | 11 208 |
^ Počet unikátních (různých) mluvčích | 14 |
Cílem korpusu je pokrývat období let 1918 až 2015, a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem a zaměřením se řadí mezi malé a relativně úzce specializované [[pojmy:korpus|korpusy]].
Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění, a u novějších textů také webové stránky politiků (či [[http://www.hrad.cz|Pražského hradu]]). K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální.
Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování).
===== Strukturní atributy =====
Z hlediska [[pojmy:metadata|metadat]] je korpus označkován na úrovni jednotlivých projevů (struktura ''[[pojmy:doc|]]''), a to následujícími [[pojmy:atributy_strukturni|strukturními atributy]]:
* ''id'' - unikátní identifikátor projevu
* ''speaker'' - jméno mluvčího projevu
* ''year'' - rok pronesení projevu
* ''date'' - datum pronesení projevu
* ''title'' - titulek projevu (většinou přidaný až pro tištěné vydání)
* ''office'' - úřad zastávaný mluvčím
* ''occasion'' - příležitost, při níž byl projev pronesen
* ''medium'' - médium, jakým byl projev přenášen (vysílán)
* ''source'' - zdroj, z něhož byl text získán
* ''link'' - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se ''source'')
* ''altsource'' - alternativní zdroj (je-li zdrojů víc)
* ''notes'' - poznámky a různočtení
* ''status'' - stupeň ruční kontroly textu
V textech byla dále provedena větná segmentace (naznačená strukturními značkami ''[[pojmy:s|]]'').
==== Atribut: occasion ====
Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut ''doc.occasion''):
^ Příležitost (occasion) ^ Datum ^ Označení v metadatech ^
| novoroční projev | 1. ledna | New Year's Address |
| projev ke dni vzniku samostatného československého státu | 28. října | Republic day |
| vánoční poselství | 19. až 26. prosince | Christmas message |
| výročí protektorátu | 15. nebo 16. března | Protectorate Anniversary |
==== Atribut: speaker ====
Z mluvčích jsou v korpusu Speeches zastoupeni tito politici (v abecedním pořadí):
^ Jméno ^ Počet projevů ^
| Beneš, Edvard | 21 |
| Gottwald, Klement | 6 |
| Hácha, Emil | 13 |
| Havel, Václav | 25 |
| Husák, Gustáv | 17 |
| Klaus, Václav | 21 |
| Masaryk, Tomáš Garrigue | 17 |
| Novotný, Antonín | 11 |
| Svoboda, Ludvík | 7 |
| Uhde, Milan | 1 |
| X (nezjištěný)((Projevy k 28. říjnu z let 1985--1987, jejichž autorství je nejasné, např. projev //Historie žije dneškem//, uveřejněný v Rudém právu 28. 10. 1986 bez explicitně uvedeného autorství.)) | 3 |
| Y (nezjistitelný)((Projev //Národní rada k 28. říjnu// z roku 1938, jehož autorství je kolektivní.)) | 1 |
| Zápotocký, Antonín | 4 |
| Zeman, Miloš | 4 |
===== Poziční atributy =====
Korpus Speeches je [[pojmy:lemma|lemmatizován]] a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý [[seznamy:tagy|tagset]] je shodný s tím, který se užívá např. pro korpus [[cnk:syn2010|SYN2010]], přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván.
===== Jak citovat korpus Speeches =====
Cvrček, V. -- Truneček, P. -- Horký, V.: //Korpus prezidentských projevů Speeches//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz