AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
cnk:speeches [2015/06/22 16:51] – vytvořeno Václav Cvrčekcnk:speeches [2015/10/01 12:09] (aktuální) – [Korpus prezidentských projevů Speeches] Michal Křen
Řádek 1: Řádek 1:
-====== Speeches (Projevy) ======+~~NOTOC~~ 
 +====== Korpus prezidentských projevů Speeches ======
  
-Korpus prezidentských projevů Speeches byl vytvořen ve spolupráci s Universitou v Oslo.+Korpus oficiálních prezidentských projevů **Speeches** byl vytvořen na základě spolupráce ČNK [[http://www.hf.uio.no/ilos/english/|Universitou v Oslo]]. Svým zaměřením na připravené //written to be spoken// texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou [[cnk:oral2013|Oral]] (mluvené neformální a nepřipravené promluvy) a řadou [[cnk:syn2010|SYN]] (oficiální veřejný psaný jazyk). 
 + 
 +<WRAP right 35%> 
 +^ <fs medium>Název</fs> | <fs medium>Speeches</fs>
 +^ Počet [[pojmy:token|pozic (tokenů)]] |  248 839 |   
 +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  217 314 | 
 +^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  30 909 | 
 +^ Počet [[pojmy:lemma| lemmat]] |  12 522 |   
 +^ Počet projevů |  151 | 
 +^ Počet vět |  11 208 | 
 +^ Počet unikátních (různých) mluvčích |  14 |   
 +</WRAP> 
 + 
 +Cílem korpusu je pokrývat období let 1918 až 2015, a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem a zaměřením se řadí mezi malé a relativně úzce specializované [[pojmy:korpus|korpusy]]. 
 + 
 +Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění, a u novějších textů také webové stránky politiků (či [[http://www.hrad.cz|Pražského hradu]]). K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální.  
 + 
 +Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování). 
 + 
 +===== Strukturní atributy ===== 
 + 
 +Z hlediska [[pojmy:metadata|metadat]] je korpus označkován na úrovni jednotlivých projevů (struktura ''[[pojmy:doc|<doc>]]''), a to následujícími [[pojmy:atributy_strukturni|strukturními atributy]]: 
 +  * ''id'' - unikátní identifikátor projevu 
 +  * ''speaker'' - jméno mluvčího projevu 
 +  * ''year'' - rok pronesení projevu 
 +  * ''date'' - datum pronesení projevu 
 +  * ''title'' - titulek projevu (většinou přidaný až pro tištěné vydání) 
 +  * ''office'' - úřad zastávaný mluvčím 
 +  * ''occasion'' - příležitost, při níž byl projev pronesen 
 +  * ''medium'' - médium, jakým byl projev přenášen (vysílán) 
 +  * ''source'' - zdroj, z něhož byl text získán 
 +  * ''link'' - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se ''source''
 +  * ''altsource'' - alternativní zdroj (je-li zdrojů víc) 
 +  * ''notes'' - poznámky a různočtení 
 +  * ''status'' - stupeň ruční kontroly textu 
 + 
 +V textech byla dále provedena větná segmentace (naznačená strukturními značkami ''[[pojmy:s|<s>]]''). 
 + 
 +==== Atribut: occasion ==== 
 + 
 +Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut ''doc.occasion''): 
 +^ Příležitost (occasion) ^  Datum  ^  Označení v metadatech 
 +| novoroční projev |  1. ledna |  New Year's Address | 
 +| projev ke dni vzniku samostatného československého státu |  28. října |  Republic day | 
 +| vánoční poselství |  19. až 26. prosince |  Christmas message | 
 +| výročí protektorátu |  15. nebo 16. března |  Protectorate Anniversary | 
 + 
 +==== Atribut: speaker ==== 
 + 
 +Z mluvčích jsou v korpusu Speeches zastoupeni tito politici (v abecedním pořadí): 
 +^  Jméno  ^  Počet projevů  ^  
 +| Beneš, Edvard |  21 | 
 +| Gottwald, Klement |  6 | 
 +| Hácha, Emil |  13 | 
 +| Havel, Václav |  25 | 
 +| Husák, Gustáv |  17 | 
 +| Klaus, Václav |  21 | 
 +| Masaryk, Tomáš Garrigue |  17 | 
 +| Novotný, Antonín |  11 | 
 +| Svoboda, Ludvík |  7 | 
 +| Uhde, Milan |  1 | 
 +| X (nezjištěný)((Projevy k 28. říjnu z let 1985--1987, jejichž autorství je nejasné, např. projev //Historie žije dneškem//, uveřejněný v Rudém právu 28. 10. 1986 bez explicitně uvedeného autorství.)) |  3 | 
 +| Y (nezjistitelný)((Projev //Národní rada k 28. říjnu// z roku 1938, jehož autorství je kolektivní.)) |  1 | 
 +| Zápotocký, Antonín |  4 | 
 +| Zeman, Miloš |  4 | 
 + 
 +===== Poziční atributy ===== 
 + 
 +Korpus Speeches je [[pojmy:lemma|lemmatizován]] a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý [[seznamy:tagy|tagset]] je shodný s tím, který se užívá např. pro korpus [[cnk:syn2010|SYN2010]], přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván. 
 + 
 +===== Jak citovat korpus Speeches ===== 
 + 
 +<WRAP round tip 70%> 
 +Cvrček, V. -- Truneček, P. -- Horký, V.: //Korpus prezidentských projevů Speeches//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz 
 +</WRAP>