Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
Následující verze Obě strany příští revize
kurz:chvala_korpusu [2013/09/01 23:53]
Olga Richterova
kurz:chvala_korpusu [2015/01/21 18:05]
Václav Cvrček (admin)
Řádek 1: Řádek 1:
 ====== Jak na výzkumné otázky ====== ====== Jak na výzkumné otázky ======
-v manuálu [[ | ]] jsme si postupně v sedmi lekcích ukázali, jak položit [[ |pokročilé dotazy]] pomocí [[ |dotazovacího jazyka]] a osvojili jsme si principy práce s [[ |regulárními výrazy]], [[ |kombinacemi podmínek]] či třeba [[subkorpusy]]. Chcete-li se nechat provést všemi zásadními tématy souvisejícími s korpusovým výzkumem, nalistujte si právě [[manuál]]. 
  
-Tato stránka pak slouží k nastínění postupů používaných při řešení konkrétních výzkumných problémů na základě korpusových dat. Nečiní ​si nárok na úplnost, doufáme ale, že zde najdete inspiraci ​pokud si s čím po prostudování manuálu nebudete věděrady, [[kontaktujte nás]]!+V [[kurz:​uvod|kurzu]] jsme si postupně v sedmi lekcích ukázalijak položit [[pokrocile_dotazy|pokročilé dotazy]] pomocí [[pojmy:​dotazovaci_jazyk|dotazovacího jazyka]] ​osvojili jsme si principy práce ​[[pokrocile_dotazy#​regularni_vyrazy|regulárními výrazy]], [[pokrocile_dotazy#​kombinace_podminek_v_ramci_jedne_pozice|kombinacemi podmínek]] ​či třeba [[subkorpusy|subkorpusy]]. Chcete-li se nechat provést všemi zásadními tématy souvisejícími s korpusovým výzkumem, nalistujte si právě náš základní kurz.
  
-===== Různé typy výzkumných otázek =====+Tato stránka pak slouží k nastínění postupů používaných při řešení konkrétních výzkumných problémů na základě korpusových dat. Nečiní si nárok na úplnost, doufáme ale, že zde najdete inspiraci a pokud si s něčím i po prostudování [[kurz:​uvod|kurzu]] a [[manualy:​kontext:​index|manuálu]] nebudete vědět rady, [[https://​podpora.korpus.cz/​projects/​poradna/​boards|kontaktujte nás]] (pouze pro [[kurz:​zaciname|registrované]] uživatele)! 
 + 
 +====== Různé typy výzkumných otázek ​======
   - výzkum určitého jazyka (textový typ, žánr, autorský styl, doba...)   - výzkum určitého jazyka (textový typ, žánr, autorský styl, doba...)
   - výzkum určitých forem (slovního základu, formantů, odvozenin...)   - výzkum určitých forem (slovního základu, formantů, odvozenin...)
Řádek 10: Řádek 11:
   - výzkum určitého lineárního uspořádání (slovosledu,​ syntaxe, ...)   - výzkum určitého lineárního uspořádání (slovosledu,​ syntaxe, ...)
   - kontrastivní výzkum (na paralelních korpusech řady InterCorp)   - kontrastivní výzkum (na paralelních korpusech řady InterCorp)
 +  - volba vhodného vzorku
  
-==== 1. výzkum určitého typu jazyka ====+===== 1. výzkum určitého typu jazyka ​=====
  
 K tomuto typu výzkumu využívejte buď subkorpus sestavený podle vámi zvolených kritérií, nebo zadejte dotaz pomocí podmínky (within). K tomuto typu výzkumu využívejte buď subkorpus sestavený podle vámi zvolených kritérií, nebo zadejte dotaz pomocí podmínky (within).
  
  
-=== Jazyk české x překladové beletrie ===+==== Jazyk české x překladové beletrie ​====
  
 Pozor: Způsob výstavby korpusů řady SYN neumožňuje zaškrtnout u zdrojového jazyka jako kritérium výběru češtinu. Je to proto, že v SYNech nemá svou vlastní zkratku, pouze představuje defaultní volbu: není-li u atributu "​srclang",​ (source language, zdrojový jazyk), uvedena žádná hodnota, jedná se právě o češtinu. Jak si tedy zvolit pouze **původně české, nepřekladové** texty? ​ Pozor: Způsob výstavby korpusů řady SYN neumožňuje zaškrtnout u zdrojového jazyka jako kritérium výběru češtinu. Je to proto, že v SYNech nemá svou vlastní zkratku, pouze představuje defaultní volbu: není-li u atributu "​srclang",​ (source language, zdrojový jazyk), uvedena žádná hodnota, jedná se právě o češtinu. Jak si tedy zvolit pouze **původně české, nepřekladové** texty? ​
Řádek 23: Řádek 25:
   - Zvolte si korpus SYN, typ dotazu CQL.   - Zvolte si korpus SYN, typ dotazu CQL.
   - Zkoumaným jevem bude distribuce citoslovcí v překladech z angličtiny a původně českých textech.   - Zkoumaným jevem bude distribuce citoslovcí v překladech z angličtiny a původně českých textech.
-  - Zadejte dotaz: [tag="​I.*"​] within <​srclang=""/>​ a [tag="​I.*"​] within <​srclang="​ENG"/>​+  - Zadejte dotaz: [tag=%%"​I.*"​%%] within <​srclang=%%""​%%/> a [tag=%%"​I.*"​%%] within <​srclang=%%"​ENG"​%%/>
   - Porovnejte frekvenční distribuce (na lemmatu).   - Porovnejte frekvenční distribuce (na lemmatu).
 </​WRAP>​ </​WRAP>​
  
  
-Výsledek: ​.... +Výsledek: ​FIXME
  
  
 **Shrnutí - atribut srclang** **Shrnutí - atribut srclang**
  
-  * V korpusech řady SYN je pro zkoumání //čisté češtiny// třeba vyhledávat zkoumaný jev v těch textech, které splňují podmínku within <​srclang=""/>​.  +  * V korpusech řady SYN je pro zkoumání //čisté češtiny// třeba vyhledávat zkoumaný jev v těch textech, které splňují podmínku within <​srclang=%%""​%%/>.  
-  * V korpusech z paralelní řady zvané InterCorp už atribut [[srclang="​cs"​]] zanesený je. Všimněte si ale, že u hodnoty atributů záleží i na velikosti písmen+  * V korpusech z paralelní řady zvané InterCorp už atribut [[pojmy:​srclang|srclang="​cs"​]] zanesený je. Všimněte si ale, že u hodnoty atributů záleží i na velikosti písmen.
  
-  *  +==== Autorský jazyk a sociolingvistické proměnné ====
- +
-=== Autorský jazyk ===+
  
 - nástrahy zadávání cizích jmen: Virginia Woolf a Woolfová, více Karlů Čapků, hledání v SYNu versus v InterCorpu - nástrahy zadávání cizích jmen: Virginia Woolf a Woolfová, více Karlů Čapků, hledání v SYNu versus v InterCorpu
  
  
-==== Hledáme: ​Autorský jazyk v překladech ​====+=== Autorský jazyk v překladech ===
 Známí překladatelé,​ manželé Pellarovi, jsou v souboru SYN zastoupeni řadou děl. Známí překladatelé,​ manželé Pellarovi, jsou v souboru SYN zastoupeni řadou děl.
-Texty, které překládali pouze oni, nalezneme za pomoci této podmínky: ''​within <opus preklad="​Pellar.*"​ />'',​ potřebujeme však v textech splňujících tento atribut nalézt nějaký jev. Nepříliš frekventovaná a současně zajímavá jsou citoslovce.+Texty, které překládali pouze oni, nalezneme za pomoci této podmínky: ''​within <opus preklad=%%"%%Pellar.*<​nowiki>​"</​nowiki> ​/>'',​ potřebujeme však v textech splňujících tento atribut nalézt nějaký jev. Nepříliš frekventovaná a současně zajímavá jsou citoslovce.
  
-''​[tag="​I.*"​] ​ within <opus preklad="​Pellar.*"​ />''​+''​[tag=%%"​I.*"​%%]  within <opus preklad=%%"​Pellar.*"​%% />''​
  
-{{:manual:syn_autorsky_jazyk_pellar.jpg?​direct&​300|}}+{{syn_autorsky_jazyk_pellar.jpg?​direct&​300|}}
  
-{{:manual:tag_interjekce.jpg?​300|}}+{{tag_interjekce.jpg?​300|}}
  
 Frekvenčnímu seznamu dominuje následujících 30 lemmat: Frekvenčnímu seznamu dominuje následujících 30 lemmat:
  
-{{:manual:interjekce_pellar.jpg?​300|}}+{{interjekce_pellar.jpg?​300|}}
  
 Další srovnávání podobně utvářených a funkčně blízkých výrazů typu //​propánakrále//​ a //​prokristapána//​ ukazuje, že první lexém je používaný především jako charakterizační prostředek jazyka hlavní postavy románu Kdo chytá v žitě. Naopak **//​prokristapána//​** je mnohem rovnoměrněji zastoupeno ve vyšším počtu děl, konkrétně sedmi. Další srovnávání podobně utvářených a funkčně blízkých výrazů typu //​propánakrále//​ a //​prokristapána//​ ukazuje, že první lexém je používaný především jako charakterizační prostředek jazyka hlavní postavy románu Kdo chytá v žitě. Naopak **//​prokristapána//​** je mnohem rovnoměrněji zastoupeno ve vyšším počtu děl, konkrétně sedmi.
Řádek 66: Řádek 66:
 | Penězoměnci | 2 | 10.9 | | Penězoměnci | 2 | 10.9 |
  
 +=== Sociolingvistické proměnné: učitelé, žáci a věk ===
  
-=== Jazyk určité doby === 
- 
-- vytváření subkorpusu jazyka 19. / 1.pol. 20. stol. // pozor na kolizi 1. vydání X námi zařazené vydání// 
- 
- 
- 
-=== Jazyk určitého regionu === 
- 
-Lze zkoumat na mluveném jazyce, ORAL 2013 - i Morava 
- 
-"To se nechá //​koupit//​..."​ 
-pytlovina 
-pletýnka 
-su 
-rožnout 
-toto x tohle x ... 
- 
- 
-==== Sociolingvistické proměnné: učitelé, žáci a věk ==== 
  
 **Je pozorovatelný rozdíl v používání vágních výplňových výrazů v závislosti na věku a vzdělání?​** ((Za podnět k této otázce děkuji kolegyni Haně Goláňové)) **Je pozorovatelný rozdíl v používání vágních výplňových výrazů v závislosti na věku a vzdělání?​** ((Za podnět k této otázce děkuji kolegyni Haně Goláňové))
Řádek 107: Řádek 89:
 A určitý věk: A určitý věk:
  
-==== 2. výzkum určitých forem ====+==== Jazyk určité doby ==== 
 + 
 +- vytváření subkorpusu jazyka 19. / 1.pol. 20. stol. // pozor na kolizi 1. vydání X námi zařazené vydání//​ 
 + 
 + 
 + 
 +==== Jazyk určitého regionu ==== 
 + 
 +Lze zkoumat na mluveném jazyce, ORAL 2013 - i Morava 
 + 
 +"To se nechá //​koupit//​..."​ 
 +pytlovina 
 +pletýnka 
 +su 
 +rožnout 
 +toto x tohle x ... 
 + 
 + 
 + 
 + 
 +===== 2. výzkum určitých forem =====
  
  
-==== Adjektivum ‘kách’ v současné češtině ​(SYN2010) ​==== +==== Adjektivum ‘kách’ v současné češtině ==== 
-Z rakouské němčiny přejatý výraz pro //rychle// ještě úplně neupadl v zapomnění. Nejprve hledáme prosté ''​[lemma="​kách"​]''​ a nalezneme např.:+Z rakouské němčiny přejatý výraz pro //rychle// ještě úplně neupadl v zapomnění. Nejprve hledáme prosté ''​[lemma="​kách"​]'' ​(SYN2010) ​a nalezneme např.:
 ''​Ti druzí umřeli moc **kách** .''​ ''​Ti druzí umřeli moc **kách** .''​
  
Řádek 128: Řádek 130:
  
  
 +===== 3. výzkum určitých kategorií =====
  
-==== 3. výzkum určitých ​kategorií ​==== +Díky tagování máme k dispozici informace o celé řadě morfologických ​kategorií.
  
 ==== Negace: Hledáme adjektiva v negovaném tvaru, jejichž lemmata nejsou afirmativní ==== ==== Negace: Hledáme adjektiva v negovaném tvaru, jejichž lemmata nejsou afirmativní ====
Řádek 152: Řádek 154:
  
  
-==== 4. výzkum určitého lineárního uspořádání ====+===== 4. výzkum určitého lineárního uspořádání ​=====
  
 +pozice, v rámci jedné věty, kontrast vět tázacích a rozkazovacích...
  
  
-==== 5. kontrastivní výzkum ​====+==== Hledáme veškerou interpunkci v mluveném korpusu (počet pozic obsazených slovy) ​==== 
 +**Můžeme si v mluvených korpusech ověřit, kolik slov - zde definovaných jako řetězce obsahující alfabetické znaky - obsahují?​** Jelikož [[cnk:​oral2008|ORAL2008]] ani jiný [[pojmy:​mluveny|korpus mluveného jazyka]] není [[pojmy:​lemma|lemmatizovaný]] (natož [[pojmy:​tag|otagovaný]]),​ je třeba optat se přímo na konkrétní tvary interpunkčních znamének a ty odečíst z celkového počtu pozic v daném korpusu. Zpětné lomítko způsobí, že např. tečka ztratí svůj zvláštní význam coby libovolný zástupný znak (viz [[pojmy:​regularni_vyrazy|regulární výrazy]]).
  
 +Nejprve zadáme jednoduchý dotaz s nejběžnějšími interpunkčními znaménky:
 +
 +''​[word=<​nowiki>"</​nowiki>​\.|\?​|\!|\;​|\:​|\,<​nowiki>"</​nowiki>​]''​
 +
 +^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^
 +| ORAL2008 | 1 349 536 | 284 909 | 1 064 627 |
 +
 +Eliminujeme-li výše uvedená interpunkční znaménka, zbývá nám skutečně 1 064 627 pozic obsazených slovy?
 +Nikoli. Po bližším pohledu vyjde najevo, že mluvené korpusy obsahují řadu dalších značek, které nelze označit za interpunkční znaménka, ovšem zaujímají strukturní pozice. Jejich přehled lze nalézt v  [[seznamy:​pravidlaprepis| pravidlech pro přepis]].
 +
 +Řešením se zdá být dotaz po všech znacích nealfabetické povahy. ​
 +Takový dotaz umožní vyloučit mj. i situační komentáře psané do závorek (např. ''​(zvuky televize)''​ nebo ''​(do telefonu)''​):​
 +
 +''​[word!=<​nowiki>"</​nowiki>​[a-zA-Z]+<​nowiki>"</​nowiki>​]''​
 +
 +Výsledek v ORALu2008: 704 515 výskytů. Dotaz totiž zahrnul i veškerá slova obsahující diakritiku - asi nepřekvapí,​ že regulární výrazy nejsou adaptované na češtinu. Další precizování dotazu:
 +
 +''​[word!=<​nowiki>"</​nowiki>​[a-zA-ZžňčťďřšěéáíýóúůŽŇČŤĎŘŠĚÉÁÍÝÓÚŮüäöëÿ]+<​nowiki>"</​nowiki>​]''​
 +
 +Výsledek:
 +
 +^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^
 +| ORAL2008 | 1 349 536 | 337 247 | 1 012 289 |
 +
 +
 +Jenže tento dotaz vyřadí i nedořečená slova, ukončená pomocí hvězdičky (např. ''​babič*''​),​ stejně jako slova postrádající začátek (např: ''​*šjak''​) a slova obsahující spojovník (''​e-mail''​ ((vyvstává ovšem otázka, do jaké míry zde přepisovatelé namísto sledování mluvy sledovali běžnou ortografii)) ).
 +
 +Pokud stanovíme, že v mluveném korpusu slova nemusí být dořečená,​ ba mohou obsahovat i spojovník, dostaneme následující dotaz a výsledek:
 +
 +''​[word!=<​nowiki>"</​nowiki>​[a-zA-ZžňčťďřšěéáíýóúůŽŇČŤĎŘŠĚÉÁÍÝÓÚŮüäöëÿ]+<​nowiki>"</​nowiki>&​word!=<​nowiki>"</​nowiki>​.*\*|\*.*|.+\-.+<​nowiki>"</​nowiki>​]''​
 +
 +^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^
 +| ORAL2008 | 1 349 536 | 323 267 | 1 026 269 |
 +| ORAL2006 | 1 312 282 | 288 460 | 1 023 822 |
 +
 +Takový výsledek již lze považovat za směrodatný.
 +
 +Ještě poznámka: ačkoliv se různé mluvené korpusy liší, např. [[cnk:​schola2010|SCHOLA2010]] obsahuje interpunkci a rozdílné závorky pro různé typy komentářů ([[seznamy:​pravidlaprepis]]),​ tento dotaz platí i pro něj:
 +
 +^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^
 +| SCHOLA2010 | 1 046 600 | 218 562 | 828 038 |
 +
 +Odkaz na tento dotaz [[http://​bit.ly/​14kx4s2|naleznete zde]].
 +
 +===== 5. kontrastivní výzkum =====
 +
 +Srovnávání více jazyků umožňují korpusy řady InterCorp.
 +
 +==== Ekvivalenty v překladech:​ „Macher“ ====
 +//False friends// jsou výrazy, na něž je klasický slovník často krátký. Patří mezi ně třeba německé //Macher// - není to totiž namyšlený český //machr//, ale docela obyčejný //hybatel dění// či //​strůjce//,​ //​původce//​.
 +Lépe než slovník k nalezení vhodného překladu poslouží [[kurz:​hledani_v_paralelnim_korpusu|paralelní rozhraní]]:​
 +
 +==== Adverbiale na počátku věty v angličtině ====
 +Chceme najít příslovečná určení na začátcích anglických vět, oddělená čárkou:
 +
 +** ''<​s>​[tag=%%"​IN][word!="​V.*"​]{1,​2}[word=","​%%]''​ **
 +
 +Nejfrekventovanější výskyty ukazují, že nám tento dotaz dává spíše větná uvození:
 +
 +
 +{{intercorp_adverbiale.jpg?​300|}}
  
  
  --- Olga Richterová  --- Olga Richterová
 +
 +
 +===== Volba vhodného vzorku =====
 +**Absolutní komparativ** - Bc. práce
 +
 + --- //Václav Cvrček//
 +