AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:speeches [2015/06/22 17:33] Václav Cvrčekcnk:speeches [2015/10/01 12:09] (aktuální) – [Korpus prezidentských projevů Speeches] Michal Křen
Řádek 2: Řádek 2:
 ====== Korpus prezidentských projevů Speeches ====== ====== Korpus prezidentských projevů Speeches ======
  
-Korpus oficiálních prezidentských projevů Speeches byl vytvořen na základě spolupráce ČNK s [[http://www.hf.uio.no/ilos/english/|Universitou v Oslo]]. Svým zaměřením na připravené //written-to-be-spoken// texty, v nichž funkčně převažuje psaná čeština a k mluveným textům se dají řadit pouze na základě použitého média, vyplňuje prostor mezi řadou [[cnk:oral2013|Oral]] a řadou [[cnk:syn2010|SYN]]. +Korpus oficiálních prezidentských projevů **Speeches** byl vytvořen na základě spolupráce ČNK s [[http://www.hf.uio.no/ilos/english/|Universitou v Oslo]]. Svým zaměřením na připravené //written to be spoken// texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou [[cnk:oral2013|Oral]] (mluvené neformální a nepřipravené promluvy) a řadou [[cnk:syn2010|SYN]] (oficiální veřejný psaný jazyk).
  
 <WRAP right 35%> <WRAP right 35%>
Řádek 15: Řádek 15:
 </WRAP> </WRAP>
  
-Cílem korpusu je pokrývat období let 1918 až 2015 a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem se řadí mezi malé a relativně úzce specializované [[pojmy:korpus|korpusy]].+Cílem korpusu je pokrývat období let 1918 až 2015a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. října apod.). Svým rozsahem a zaměřením se řadí mezi malé a relativně úzce specializované [[pojmy:korpus|korpusy]].
  
-Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném znění a u novějších textů také webové stránky politiků. K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální. +Zdrojem textů pro korpus Speeches byly jednak sebrané spisy jednotlivých prezidentů, dále pak denní tisk, který projevy otiskoval v plném zněnía u novějších textů také webové stránky politiků (či [[http://www.hrad.cz|Pražského hradu]]). K mluvené podobě projevů se ve větší míře nepřihlíželo; v případě, že se pronesený projev ve své autentické mluvené podobě (je-li dostupná) odlišuje od tištěné verze (např. přeřeknutí), do korpusu byl včleněn text v takové verzi, kterou je možné považovat za oficiální. 
  
 Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování). Korpus je vybaven podrobnou strukturní anotací (popisující jednotlivé projevy) a anotací poziční (lemmatizace a tagování).
Řádek 23: Řádek 23:
 ===== Strukturní atributy ===== ===== Strukturní atributy =====
  
-Z hlediska [[pojmy:metadata|metadat]] je korpus označkován na úrovni jednotlivých projevů ''[[pojmy:doc|<doc>]]'', a to následujícími [[pojmy:atributy_strukturni|strukturními atributy]]: +Z hlediska [[pojmy:metadata|metadat]] je korpus označkován na úrovni jednotlivých projevů (struktura ''[[pojmy:doc|<doc>]]''), a to následujícími [[pojmy:atributy_strukturni|strukturními atributy]]: 
-  * id - unikátní identifikátor projevu +  * ''id'' - unikátní identifikátor projevu 
-  * speaker - jméno mluvčího projevu +  * ''speaker'' - jméno mluvčího projevu 
-  * year - rok pronesení projevu +  * ''year'' - rok pronesení projevu 
-  * date - datum pronesení projevu +  * ''date'' - datum pronesení projevu 
-  * title - titulek projevu (většinou přidaný až pro tištěné vydání) +  * ''title'' - titulek projevu (většinou přidaný až pro tištěné vydání) 
-  * office - úřad zastávaný mluvčím +  * ''office'' - úřad zastávaný mluvčím 
-  * occasion - příležitost, při níž byl projev pronesen +  * ''occasion'' - příležitost, při níž byl projev pronesen 
-  * medium - médium, jakým byl projev přenášen (vysílán) +  * ''medium'' - médium, jakým byl projev přenášen (vysílán) 
-  * source - zdroj, z něhož byl text získán +  * ''source'' - zdroj, z něhož byl text získán 
-  * link - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se ''source''+  * ''link'' - odkaz na dostupný internetový zdroj (neuvádí se, pokud je totožný se ''source''
-  * altsource - alternativní zdroj +  * ''altsource'' - alternativní zdroj (je-li zdrojů víc) 
-  * notes - poznámky a různočtení +  * ''notes'' - poznámky a různočtení 
-  * status - stupeň ruční kontroly textu+  * ''status'' - stupeň ruční kontroly textu
  
-==== Atribut occasion ====+V textech byla dále provedena větná segmentace (naznačená strukturními značkami ''[[pojmy:s|<s>]]''). 
 + 
 +==== Atributoccasion ====
  
 Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut ''doc.occasion''): Korpus Speeches se soustředí pouze na projevy, které vznikaly u příležitosti periodicky se opakujících svátků (viz atribut ''doc.occasion''):
-  * novoroční projev (New Year's Address) +^ Příležitost (occasion) ^  Datum  ^  Označení v metadatech 
-  * výročí republiky (Republic day) +novoroční projev |  1. ledna |  New Year's Address | 
-  vánoční poselství (Christmas mesaage) +| projev ke dni vzniku samostatného československého státu |  28. října |  Republic day | 
-  výročí protektorátu (Protectorate Anniversary)+vánoční poselství |  19. až 26. prosince |  Christmas message | 
 +výročí protektorátu |  15. nebo 16. března |  Protectorate Anniversary |
  
-==== Atribut speaker ====+==== Atributspeaker ====
  
-Z mluvčích jsou v korpusu Speeches zastoupeni tito politici: +Z mluvčích jsou v korpusu Speeches zastoupeni tito politici (v abecedním pořadí)
-  Beneš, Edvard + Jméno  ^  Počet projevů  ^  
-  Gottwald, Klement +Beneš, Edvard  21 | 
-  Havel, Václav +Gottwald, Klement |  6 | 
-  Husák, Gustáv +| Hácha, Emil |  13 | 
-  * Hácha, Emil +Havel, Václav  25 | 
-  Klaus, Václav +Husák, Gustáv  17 | 
-  Masaryk, Tomáš Garrigue +Klaus, Václav |  21 | 
-  Novotný, Antonín +Masaryk, Tomáš Garrigue  17 | 
-  Svoboda, Ludvík +Novotný, Antonín  11 | 
-  Uhde, Milan +Svoboda, Ludvík  7 | 
-  X (nezjištěný)((Projev //Historie žije dneškem// uveřejněný v Rudém právu 28. 10. 1986, jehož autorství je sporné.)) +Uhde, Milan  1 | 
-  Y (nezjistitelný)((Projev //Národní rada k 28. říjnu// z roku 1938, jehož autorství je kolektivní)) +X (nezjištěný)((Projevy k 28. říjnu z let 1985--1987, jejichž autorství je nejasné, např. projev //Historie žije dneškem//uveřejněný v Rudém právu 28. 10. 1986 bez explicitně uvedeného autorství.)) |  3 | 
-  Zeman, Miloš +Y (nezjistitelný)((Projev //Národní rada k 28. říjnu// z roku 1938, jehož autorství je kolektivní.)) |  1 | 
-  * Zápotocký, Antonín+| Zápotocký, Antonín |  4 | 
 +Zeman, Miloš  4 |
  
 ===== Poziční atributy ===== ===== Poziční atributy =====
Řádek 68: Řádek 72:
 Korpus Speeches je [[pojmy:lemma|lemmatizován]] a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý [[seznamy:tagy|tagset]] je shodný s tím, který se užívá např. pro korpus [[cnk:syn2010|SYN2010]], přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván. Korpus Speeches je [[pojmy:lemma|lemmatizován]] a tagován aktuálními nástroji užívanými pro korpusy řady SYN. Použitý [[seznamy:tagy|tagset]] je shodný s tím, který se užívá např. pro korpus [[cnk:syn2010|SYN2010]], přičemž nebylo specificky přihlíženo k dobovému způsobu psaní, který je v textech pokud možno zachováván.
  
 +===== Jak citovat korpus Speeches =====
 +
 +<WRAP round tip 70%>
 +Cvrček, V. -- Truneček, P. -- Horký, V.: //Korpus prezidentských projevů Speeches//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz
 +</WRAP>