Toto je starší verze dokumentu!
Korpus prezidentských projevů Speeches
Korpus oficiálních prezidentských projevů Speeches byl vytvořen na základě spolupráce ČNK s Universitou v Oslo. Svým zaměřením na připravené written-to-be-spoken texty, v nichž funkčně převažuje psaná čeština a k mluveným textům se dají řadit pouze na základě použitého média, vyplňuje prostor mezi řadou Oral a řadou SYN.
Název | Speeches |
---|---|
Počet pozic (tokenů) | 248 839 |
Počet pozic (tokenů) bez interpunkce a dalších značek | 217 314 |
Počet slovních tvarů (wordů) | 30 909 |
Počet lemmat | 12 522 |
Počet projevů | 151 |
Počet vět | 11 208 |
Počet unikátních (různých) mluvčích | 14 |
Cílem korpusu je pokrývat období let 1918 až 2015 a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem se řadí mezi malé a relativně úzce specializované korpusy.
Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění a u novějších textů také webové stránky politiků. K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální.
Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování).
Strukturní atributy
Z hlediska metadat je korpus označkován na úrovni jednotlivých projevů <doc>
, a to následujícími strukturními atributy:
- id - unikátní identifikátor projevu
- speaker - jméno mluvčího projevu
- year - rok pronesení projevu
- date - datum pronesení projevu
- title - titulek projevu (většinou přidaný až pro tištěné vydání)
- office - úřad zastávaný mluvčím
- occasion - příležitost, při níž byl projev pronesen
- medium - médium, jakým byl projev přenášen (vysílán)
- source - zdroj, z něhož byl text získán
- link - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se
source
) - altsource - alternativní zdroj
- notes - poznámky a různočtení
- status - stupeň ruční kontroly textu
Atribut occasion
Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut doc.occasion
):
- novoroční projev (New Year's Address)
- výročí republiky (Republic day)
- vánoční poselství (Christmas mesaage)
- výročí protektorátu (Protectorate Anniversary)
Atribut speaker
Z mluvčích jsou v korpusu Speeches zastoupeni tito politici:
Poziční atributy
Korpus Speeches je lemmatizován a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý tagset je shodný s tím, který se užívá např. pro korpus SYN2010, přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván.