~~NOTOC~~ ====== Korpus prezidentských projevů Speeches ====== Korpus oficiálních prezidentských projevů **Speeches** byl vytvořen na základě spolupráce ČNK s [[http://www.hf.uio.no/ilos/english/|Universitou v Oslo]]. Svým zaměřením na připravené //written to be spoken// texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou [[cnk:oral2013|Oral]] (mluvené neformální a nepřipravené promluvy) a řadou [[cnk:syn2010|SYN]] (oficiální veřejný psaný jazyk). ^ Název | Speeches | ^ Počet [[pojmy:token|pozic (tokenů)]] | 248 839 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | 217 314 | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 30 909 | ^ Počet [[pojmy:lemma| lemmat]] | 12 522 | ^ Počet projevů | 151 | ^ Počet vět | 11 208 | ^ Počet unikátních (různých) mluvčích | 14 | Cílem korpusu je pokrývat období let 1918 až 2015, a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem a zaměřením se řadí mezi malé a relativně úzce specializované [[pojmy:korpus|korpusy]]. Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění, a u novějších textů také webové stránky politiků (či [[http://www.hrad.cz|Pražského hradu]]). K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální. Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování). ===== Strukturní atributy ===== Z hlediska [[pojmy:metadata|metadat]] je korpus označkován na úrovni jednotlivých projevů (struktura ''[[pojmy:doc|]]''), a to následujícími [[pojmy:atributy_strukturni|strukturními atributy]]: * ''id'' - unikátní identifikátor projevu * ''speaker'' - jméno mluvčího projevu * ''year'' - rok pronesení projevu * ''date'' - datum pronesení projevu * ''title'' - titulek projevu (většinou přidaný až pro tištěné vydání) * ''office'' - úřad zastávaný mluvčím * ''occasion'' - příležitost, při níž byl projev pronesen * ''medium'' - médium, jakým byl projev přenášen (vysílán) * ''source'' - zdroj, z něhož byl text získán * ''link'' - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se ''source'') * ''altsource'' - alternativní zdroj (je-li zdrojů víc) * ''notes'' - poznámky a různočtení * ''status'' - stupeň ruční kontroly textu V textech byla dále provedena větná segmentace (naznačená strukturními značkami ''[[pojmy:s|]]''). ==== Atribut: occasion ==== Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut ''doc.occasion''): ^ Příležitost (occasion) ^ Datum ^ Označení v metadatech ^ | novoroční projev | 1. ledna | New Year's Address | | projev ke dni vzniku samostatného československého státu | 28. října | Republic day | | vánoční poselství | 19. až 26. prosince | Christmas message | | výročí protektorátu | 15. nebo 16. března | Protectorate Anniversary | ==== Atribut: speaker ==== Z mluvčích jsou v korpusu Speeches zastoupeni tito politici (v abecedním pořadí): ^ Jméno ^ Počet projevů ^ | Beneš, Edvard | 21 | | Gottwald, Klement | 6 | | Hácha, Emil | 13 | | Havel, Václav | 25 | | Husák, Gustáv | 17 | | Klaus, Václav | 21 | | Masaryk, Tomáš Garrigue | 17 | | Novotný, Antonín | 11 | | Svoboda, Ludvík | 7 | | Uhde, Milan | 1 | | X (nezjištěný)((Projevy k 28. říjnu z let 1985--1987, jejichž autorství je nejasné, např. projev //Historie žije dneškem//, uveřejněný v Rudém právu 28. 10. 1986 bez explicitně uvedeného autorství.)) | 3 | | Y (nezjistitelný)((Projev //Národní rada k 28. říjnu// z roku 1938, jehož autorství je kolektivní.)) | 1 | | Zápotocký, Antonín | 4 | | Zeman, Miloš | 4 | ===== Poziční atributy ===== Korpus Speeches je [[pojmy:lemma|lemmatizován]] a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý [[seznamy:tagy|tagset]] je shodný s tím, který se užívá např. pro korpus [[cnk:syn2010|SYN2010]], přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván. ===== Jak citovat korpus Speeches ===== Cvrček, V. -- Truneček, P. -- Horký, V.: //Korpus prezidentských projevů Speeches//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz