AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus prezidentských projevů Speeches

Korpus oficiálních prezidentských projevů Speeches byl vytvořen na základě spolupráce ČNK s Universitou v Oslo. Svým zaměřením na připravené written-to-be-spoken texty, v nichž funkčně převažuje psaná čeština a k mluveným textům se dají řadit pouze na základě použitého média, vyplňuje prostor mezi řadou Oral a řadou SYN.

Název Speeches
Počet pozic (tokenů) 248 839
Počet pozic (tokenů) bez interpunkce a dalších značek 217 314
Počet slovních tvarů (wordů) 30 909
Počet lemmat 12 522
Počet projevů 151
Počet vět 11 208
Počet unikátních (různých) mluvčích 14

Cílem korpusu je pokrývat období let 1918 až 2015 a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem se řadí mezi malé a relativně úzce specializované korpusy.

Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění a u novějších textů také webové stránky politiků. K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální.

Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování).

Strukturní atributy

Z hlediska metadat je korpus označkován na úrovni jednotlivých projevů <doc>, a to následujícími strukturními atributy:

  • id - unikátní identifikátor projevu
  • speaker - jméno mluvčího projevu
  • year - rok pronesení projevu
  • date - datum pronesení projevu
  • title - titulek projevu (většinou přidaný až pro tištěné vydání)
  • office - úřad zastávaný mluvčím
  • occasion - příležitost, při níž byl projev pronesen
  • medium - médium, jakým byl projev přenášen (vysílán)
  • source - zdroj, z něhož byl text získán
  • link - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se source)
  • altsource - alternativní zdroj
  • notes - poznámky a různočtení
  • status - stupeň ruční kontroly textu

Atribut occasion

Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut doc.occasion):

  • novoroční projev (New Year's Address)
  • výročí republiky (Republic day)
  • vánoční poselství (Christmas mesaage)
  • výročí protektorátu (Protectorate Anniversary)

Atribut speaker

Z mluvčích jsou v korpusu Speeches zastoupeni tito politici:

  • Beneš, Edvard
  • Gottwald, Klement
  • Havel, Václav
  • Husák, Gustáv
  • Hácha, Emil
  • Klaus, Václav
  • Masaryk, Tomáš Garrigue
  • Novotný, Antonín
  • Svoboda, Ludvík
  • Uhde, Milan
  • X (nezjištěný)1)
  • Y (nezjistitelný)2)
  • Zeman, Miloš
  • Zápotocký, Antonín

Poziční atributy

Korpus Speeches je lemmatizován a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý tagset je shodný s tím, který se užívá např. pro korpus SYN2010, přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván.

1)
Projev Historie žije dneškem uveřejněný v Rudém právu v 28. 10. 1986, jehož autorství je sporné.
2)
Projev Národní rada k 28. říjnu z roku 1938, jehož autorství je kolektivní