Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revize Předchozí verze Následující verze | Předchozí verze | ||
kurz:chvala_korpusu [2013/09/01 23:57] Olga Richterova [5. kontrastivní výzkum] |
kurz:chvala_korpusu [2018/08/13 15:14] Václav Cvrček [Hledáme veškerou interpunkci v mluveném korpusu (počet pozic obsazených slovy)] |
||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Jak na výzkumné otázky ====== | ====== Jak na výzkumné otázky ====== | ||
- | v manuálu [[ | ]] jsme si postupně v sedmi lekcích ukázali, jak položit [[ |pokročilé dotazy]] pomocí [[ |dotazovacího jazyka]] a osvojili jsme si principy práce s [[ |regulárními výrazy]], [[ |kombinacemi podmínek]] či třeba [[subkorpusy]]. Chcete-li se nechat provést všemi zásadními tématy souvisejícími s korpusovým výzkumem, nalistujte si právě [[manuál]]. | ||
- | Tato stránka pak slouží k nastínění postupů používaných při řešení konkrétních výzkumných problémů na základě korpusových dat. Nečiní si nárok na úplnost, doufáme ale, že zde najdete inspiraci a pokud si s něčím i po prostudování manuálu nebudete vědět rady, [[kontaktujte nás]]! | + | V [[kurz:uvod|kurzu]] jsme si postupně v sedmi lekcích ukázali, jak položit [[pokrocile_dotazy|pokročilé dotazy]] pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a osvojili jsme si principy práce s [[pokrocile_dotazy#regularni_vyrazy|regulárními výrazy]], [[pokrocile_dotazy#kombinace_podminek_v_ramci_jedne_pozice|kombinacemi podmínek]] či třeba [[subkorpusy|subkorpusy]]. Chcete-li se nechat provést všemi zásadními tématy souvisejícími s korpusovým výzkumem, nalistujte si právě náš základní kurz. |
+ | |||
+ | Tato stránka pak slouží k nastínění postupů používaných při řešení konkrétních výzkumných problémů na základě korpusových dat. Nečiní si nárok na úplnost, doufáme ale, že zde najdete inspiraci a pokud si s něčím i po prostudování [[kurz:uvod|kurzu]] a [[manualy:kontext:index|manuálu]] nebudete vědět rady, [[https://podpora.korpus.cz/projects/poradna/boards|kontaktujte nás]] (pouze pro [[kurz:zaciname|registrované]] uživatele)! | ||
====== Různé typy výzkumných otázek ====== | ====== Různé typy výzkumných otázek ====== | ||
Řádek 10: | Řádek 11: | ||
- výzkum určitého lineárního uspořádání (slovosledu, syntaxe, ...) | - výzkum určitého lineárního uspořádání (slovosledu, syntaxe, ...) | ||
- kontrastivní výzkum (na paralelních korpusech řady InterCorp) | - kontrastivní výzkum (na paralelních korpusech řady InterCorp) | ||
+ | - volba vhodného vzorku | ||
===== 1. výzkum určitého typu jazyka ===== | ===== 1. výzkum určitého typu jazyka ===== | ||
Řádek 23: | Řádek 25: | ||
- Zvolte si korpus SYN, typ dotazu CQL. | - Zvolte si korpus SYN, typ dotazu CQL. | ||
- Zkoumaným jevem bude distribuce citoslovcí v překladech z angličtiny a původně českých textech. | - Zkoumaným jevem bude distribuce citoslovcí v překladech z angličtiny a původně českých textech. | ||
- | - Zadejte dotaz: [tag="I.*"] within <srclang=""/> a [tag="I.*"] within <srclang="ENG"/> | + | - Zadejte dotaz: [tag=%%"I.*"%%] within <srclang=%%""%%/> a [tag=%%"I.*"%%] within <srclang=%%"ENG"%%/> |
- Porovnejte frekvenční distribuce (na lemmatu). | - Porovnejte frekvenční distribuce (na lemmatu). | ||
</WRAP> | </WRAP> | ||
- | Výsledek: .... | + | Výsledek: FIXME |
**Shrnutí - atribut srclang** | **Shrnutí - atribut srclang** | ||
- | * V korpusech řady SYN je pro zkoumání //čisté češtiny// třeba vyhledávat zkoumaný jev v těch textech, které splňují podmínku within <srclang=""/>. | + | * V korpusech řady SYN je pro zkoumání //čisté češtiny// třeba vyhledávat zkoumaný jev v těch textech, které splňují podmínku within <srclang=%%""%%/>. |
- | * V korpusech z paralelní řady zvané InterCorp už atribut [[srclang="cs"]] zanesený je. Všimněte si ale, že u hodnoty atributů záleží i na velikosti písmen: | + | * V korpusech z paralelní řady zvané InterCorp už atribut [[pojmy:srclang|srclang="cs"]] zanesený je. Všimněte si ale, že u hodnoty atributů záleží i na velikosti písmen. |
- | + | ||
- | * | + | |
==== Autorský jazyk a sociolingvistické proměnné ==== | ==== Autorský jazyk a sociolingvistické proměnné ==== | ||
Řádek 45: | Řádek 45: | ||
=== Autorský jazyk v překladech === | === Autorský jazyk v překladech === | ||
Známí překladatelé, manželé Pellarovi, jsou v souboru SYN zastoupeni řadou děl. | Známí překladatelé, manželé Pellarovi, jsou v souboru SYN zastoupeni řadou děl. | ||
- | Texty, které překládali pouze oni, nalezneme za pomoci této podmínky: ''within <opus preklad="Pellar.*" />'', potřebujeme však v textech splňujících tento atribut nalézt nějaký jev. Nepříliš frekventovaná a současně zajímavá jsou citoslovce. | + | Texty, které překládali pouze oni, nalezneme za pomoci této podmínky: ''within <opus preklad=%%"%%Pellar.*<nowiki>"</nowiki> />'', potřebujeme však v textech splňujících tento atribut nalézt nějaký jev. Nepříliš frekventovaná a současně zajímavá jsou citoslovce. |
- | ''[tag="I.*"] within <opus preklad="Pellar.*" />'' | + | ''[tag=%%"I.*"%%] within <opus preklad=%%"Pellar.*"%% />'' |
- | {{:manual:syn_autorsky_jazyk_pellar.jpg?direct&300|}} | + | {{syn_autorsky_jazyk_pellar.jpg?direct&300|}} |
- | {{:manual:tag_interjekce.jpg?300|}} | + | {{tag_interjekce.jpg?300|}} |
Frekvenčnímu seznamu dominuje následujících 30 lemmat: | Frekvenčnímu seznamu dominuje následujících 30 lemmat: | ||
- | {{:manual:interjekce_pellar.jpg?300|}} | + | {{interjekce_pellar.jpg?300|}} |
Další srovnávání podobně utvářených a funkčně blízkých výrazů typu //propánakrále// a //prokristapána// ukazuje, že první lexém je používaný především jako charakterizační prostředek jazyka hlavní postavy románu Kdo chytá v žitě. Naopak **//prokristapána//** je mnohem rovnoměrněji zastoupeno ve vyšším počtu děl, konkrétně sedmi. | Další srovnávání podobně utvářených a funkčně blízkých výrazů typu //propánakrále// a //prokristapána// ukazuje, že první lexém je používaný především jako charakterizační prostředek jazyka hlavní postavy románu Kdo chytá v žitě. Naopak **//prokristapána//** je mnohem rovnoměrněji zastoupeno ve vyšším počtu děl, konkrétně sedmi. | ||
Řádek 109: | Řádek 109: | ||
- | ==== 2. výzkum určitých forem ==== | + | ===== 2. výzkum určitých forem ===== |
- | ==== Adjektivum ‘kách’ v současné češtině (SYN2010) ==== | + | ==== Adjektivum ‘kách’ v současné češtině ==== |
- | Z rakouské němčiny přejatý výraz pro //rychle// ještě úplně neupadl v zapomnění. Nejprve hledáme prosté ''[lemma="kách"]'' a nalezneme např.: | + | Z rakouské němčiny přejatý výraz pro //rychle// ještě úplně neupadl v zapomnění. Nejprve hledáme prosté ''[lemma="kách"]'' (SYN2010) a nalezneme např.: |
''Ti druzí umřeli moc **kách** .'' | ''Ti druzí umřeli moc **kách** .'' | ||
Řádek 130: | Řádek 130: | ||
+ | ===== 3. výzkum určitých kategorií ===== | ||
- | ==== 3. výzkum určitých kategorií ==== | + | Díky tagování máme k dispozici informace o celé řadě morfologických kategorií. |
==== Negace: Hledáme adjektiva v negovaném tvaru, jejichž lemmata nejsou afirmativní ==== | ==== Negace: Hledáme adjektiva v negovaném tvaru, jejichž lemmata nejsou afirmativní ==== | ||
Řádek 154: | Řádek 154: | ||
- | ==== 4. výzkum určitého lineárního uspořádání ==== | + | ===== 4. výzkum určitého lineárního uspořádání ===== |
+ | pozice, v rámci jedné věty, kontrast vět tázacích a rozkazovacích... | ||
+ | ==== Hledáme veškerou interpunkci v mluveném korpusu (počet pozic obsazených slovy) ==== | ||
+ | **Můžeme si v mluvených korpusech ověřit, kolik slov - zde definovaných jako řetězce obsahující alfabetické znaky - obsahují?** Jelikož [[cnk:oral2008|ORAL2008]] ani jiný [[pojmy:mluveny|korpus mluveného jazyka]] není [[pojmy:lemma|lemmatizovaný]] (natož [[pojmy:tag|otagovaný]]), je třeba optat se přímo na konkrétní tvary interpunkčních znamének a ty odečíst z celkového počtu pozic v daném korpusu. Zpětné lomítko způsobí, že např. tečka ztratí svůj zvláštní význam coby libovolný zástupný znak (viz [[pojmy:regularni_vyrazy|regulární výrazy]]). | ||
+ | |||
+ | Nejprve zadáme jednoduchý dotaz s nejběžnějšími interpunkčními znaménky: | ||
+ | |||
+ | ''[word=<nowiki>"</nowiki>\.|\?|\!|\;|\:|\,<nowiki>"</nowiki>]'' | ||
+ | |||
+ | ^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^ | ||
+ | | ORAL2008 | 1 349 536 | 284 909 | 1 064 627 | | ||
+ | |||
+ | Eliminujeme-li výše uvedená interpunkční znaménka, zbývá nám skutečně 1 064 627 pozic obsazených slovy? | ||
+ | Nikoli. Po bližším pohledu vyjde najevo, že mluvené korpusy obsahují řadu dalších značek, které nelze označit za interpunkční znaménka, ovšem zaujímají strukturní pozice. Jejich přehled lze nalézt v [[seznamy:index#pravidla_pro_prepis|Pravidla pro přepis nahrávek]]. | ||
+ | |||
+ | Řešením se zdá být dotaz po všech znacích nealfabetické povahy. | ||
+ | Takový dotaz umožní vyloučit mj. i situační komentáře psané do závorek (např. ''(zvuky televize)'' nebo ''(do telefonu)''): | ||
+ | |||
+ | ''[word!=<nowiki>"</nowiki>[a-zA-Z]+<nowiki>"</nowiki>]'' | ||
+ | |||
+ | Výsledek v ORALu2008: 704 515 výskytů. Dotaz totiž zahrnul i veškerá slova obsahující diakritiku - asi nepřekvapí, že regulární výrazy nejsou adaptované na češtinu. Další precizování dotazu: | ||
+ | |||
+ | ''[word!=<nowiki>"</nowiki>[a-zA-ZžňčťďřšěéáíýóúůŽŇČŤĎŘŠĚÉÁÍÝÓÚŮüäöëÿ]+<nowiki>"</nowiki>]'' | ||
+ | |||
+ | Výsledek: | ||
+ | |||
+ | ^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^ | ||
+ | | ORAL2008 | 1 349 536 | 337 247 | 1 012 289 | | ||
+ | |||
+ | |||
+ | Jenže tento dotaz vyřadí i nedořečená slova, ukončená pomocí hvězdičky (např. ''babič*''), stejně jako slova postrádající začátek (např: ''*šjak'') a slova obsahující spojovník (''e-mail'' ((vyvstává ovšem otázka, do jaké míry zde přepisovatelé namísto sledování mluvy sledovali běžnou ortografii)) ). | ||
+ | |||
+ | Pokud stanovíme, že v mluveném korpusu slova nemusí být dořečená, ba mohou obsahovat i spojovník, dostaneme následující dotaz a výsledek: | ||
+ | |||
+ | ''[word!=<nowiki>"</nowiki>[a-zA-ZžňčťďřšěéáíýóúůŽŇČŤĎŘŠĚÉÁÍÝÓÚŮüäöëÿ]+<nowiki>"</nowiki>&word!=<nowiki>"</nowiki>.*\*|\*.*|.+\-.+<nowiki>"</nowiki>]'' | ||
+ | |||
+ | ^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^ | ||
+ | | ORAL2008 | 1 349 536 | 323 267 | 1 026 269 | | ||
+ | | ORAL2006 | 1 312 282 | 288 460 | 1 023 822 | | ||
+ | |||
+ | Takový výsledek již lze považovat za směrodatný. | ||
+ | |||
+ | Ještě poznámka: ačkoliv se různé mluvené korpusy liší, např. [[cnk:schola2010|SCHOLA2010]] obsahuje interpunkci a rozdílné závorky pro různé typy komentářů ([[seznamy:index#pravidla_pro_prepis|Pravidla pro přepis nahrávek]]), tento dotaz platí i pro něj: | ||
+ | |||
+ | ^ korpus ^ celková velikost ^ počet nealfabetických výskytů ^ zbývající pozice obsazené slovními tvary ^ | ||
+ | | SCHOLA2010 | 1 046 600 | 218 562 | 828 038 | | ||
+ | |||
+ | Odkaz na tento dotaz [[http://bit.ly/14kx4s2|naleznete zde]]. | ||
===== 5. kontrastivní výzkum ===== | ===== 5. kontrastivní výzkum ===== | ||
+ | Srovnávání více jazyků umožňují korpusy řady InterCorp. | ||
- | ==== Ekvivalenty v překladech: //Macher// ==== | + | ==== Ekvivalenty v překladech: „Macher“ ==== |
//False friends// jsou výrazy, na něž je klasický slovník často krátký. Patří mezi ně třeba německé //Macher// - není to totiž namyšlený český //machr//, ale docela obyčejný //hybatel dění// či //strůjce//, //původce//. | //False friends// jsou výrazy, na něž je klasický slovník často krátký. Patří mezi ně třeba německé //Macher// - není to totiž namyšlený český //machr//, ale docela obyčejný //hybatel dění// či //strůjce//, //původce//. | ||
- | Lépe než slovník k nalezení vhodného překladu poslouží [[paralelní rozhraní]]: | + | Lépe než slovník k nalezení vhodného překladu poslouží [[kurz:hledani_v_paralelnim_korpusu|paralelní rozhraní]]: |
==== Adverbiale na počátku věty v angličtině ==== | ==== Adverbiale na počátku věty v angličtině ==== | ||
Chceme najít příslovečná určení na začátcích anglických vět, oddělená čárkou: | Chceme najít příslovečná určení na začátcích anglických vět, oddělená čárkou: | ||
- | ** ''<s>[tag="IN][word!="V.*"]{1,2}[word=","]'' ** | + | ** ''<s>[tag=%%"IN][word!="V.*"]{1,2}[word=","%%]'' ** |
Nejfrekventovanější výskyty ukazují, že nám tento dotaz dává spíše větná uvození: | Nejfrekventovanější výskyty ukazují, že nám tento dotaz dává spíše větná uvození: | ||
- | {{:manual:intercorp_adverbiale.jpg?300|}} | + | {{intercorp_adverbiale.jpg?300|}} |
--- Olga Richterová | --- Olga Richterová | ||
+ | |||
+ | |||
+ | ===== Volba vhodného vzorku ===== | ||
+ | **Absolutní komparativ** - Bc. práce | ||
+ | |||
+ | --- //Václav Cvrček// | ||
+ |