Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:vyhodnoceni_dotazu [2018/08/21 14:28] – jankocek
+++ kurz:vyhodnoceni_dotazu [2021/01/07 09:35] – [Vliv typu textu na jazyk] michalskrabal
@@ Řádek 1: / Řádek 1: @@
 ====== 3. lekce: Položili jsme dotaz. Jak ho vyhodnotit? ======
-V první lekci tohoto průvodce pro práci s korpusy jsme se naučili položit [[prvni_dotaz|první dotaz]] a rozlišit, který [[prvni_dotaz#typy_dotazu|typ dotazu]] je vhodný na jaký problém. V druhé lekci jsme si ukázali různé [[zobrazeni_dotazu#moznosti_zobrazeni|možnosti zobrazení výsledků]], především doplňkových informací o zdrojovém textu.
+V první lekci tohoto průvodce pro práci s korpusy jsme se naučili pokládat jednoduchý typ dotazu, v druhé lekci jsme si ukázali různé [[zobrazeni_dotazu#moznosti_zobrazeni|možnosti zobrazení výsledků]], především doplňkových informací o zdrojovém textu. Nyní se zaměříme zejména na to, jak zobrazená data co nejefektivněji vyhodnotit pomocí funkcí **[[manualy:kontext:frekvence|Frekvence]]** a **[[manualy:kontext:konkordance#trideni|Konkordance → Třídění řádků]]**.
-V této, třetí lekci se zaměříme zejména na to, jak zobrazená data co nejefektivněji vyhodnotit pomocí funkcí **[[manualy:kontext:frekvence|Frekvence]]** a **[[manualy:kontext:konkordance#trideni|Konkordance → Třídění řádků]]**.
 ===== Frekvence =====
@@ Řádek 30: / Řádek 28: @@
 Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//.
-[{{:kurz:frekvdistribtag.png?600 | Výběr vlastního atributu pro frekvenční distribuci FIXME}}]
+[{{:kurz:frekvdistribtag.png?600 | Výběr vlastního atributu pro frekvenční distribuci }}]
 ==== Frekvenční distribuce slovních druhů v okolí KWICu ====
@@ Řádek 37: / Řádek 35: @@
-[{{:kurz:frekvdistr_tag1l.png?500| Zadání frekvenční distribuce na první pozici vlevo vedle KWICu FIXME}}]
+[{{:kurz:frekvdistr_tag1l.png?500| Zadání frekvenční distribuce na první pozici vlevo vedle KWICu }}]
 <WRAP clear/>
@@ Řádek 53: / Řádek 51: @@
 ==== Vliv typu textu na jazyk ====
-Pomocí frekvenční distribuce můžeme zkoumat mimo jiné vliv toho, o jaký text se jedná. Vyhledejme výplňkové slovo //vlastně// v korpusu [[cnk:syn2015|SYN2015]] (Typ dotazu: **Lemma**) a porovnáme jeho frekvenční distribuci v různých [[pojmy:txtype|textových typech]] s výskyty v mluvené češtině.
+Pomocí frekvenční distribuce můžeme zkoumat mimo jiné vliv toho, o jaký text se jedná. Vyhledejme výplňkové slovo //vlastně// v korpusu [[cnk:syn2015|SYN2015]] (váchozí atribut: **Lemma**) a porovnáme jeho frekvenční distribuci v různých [[pojmy:txtype|textových typech]] s výskyty v mluvené češtině.
 Po zobrazení konkordance z menu vybereme **Frekvence → Typy textů**, a protože jednotlivé textové typy a žánry nejsou zastoupeny stejným objemem textů, kliknutím na **i.p.m.** seřadíme výsledky podle relativní frekvence.
@@ Řádek 59: / Řádek 57: @@
 Nejvyšší relativní frekvenci (479 i.p.m.) najdeme u dramat, nejnižší (12 i.p.m.) u administrativních textů. Divadelní hry (txtype SCR: drama) jako druh psaného textu, který má nejblíže mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL, které obsahují neformální a nepřipravený mluvený jazyk. Zadáme tedy stejný dotaz, tentokrát do korpusu [[cnk:oral2013|ORAL2013]].
-Jelikož ORAL2013 není [[pojmy:lemma|lemmatizovaný]], automaticky nám zmizí typ dotazu **Lemma**. Naštěstí hledáme slovo, které se neskloňuje ani nečasuje, proto můžeme použít typ dotazu **Základní**. Současně bychom ale měli zohlednit to, že slovo //vlastně// má v mluvené češtině také podobu //vlasně//. V mluveném korpusu tedy vyhledáme obě formy a výsledky sečteme.
+Jelikož ORAL2013 není [[pojmy:lemma|lemmatizovaný]], automaticky nám zmizí výchozí atribut **lemma** (a zůstane pouze **word**). Naštěstí hledáme slovo, které se neskloňuje ani nečasuje, proto můžeme použít typ dotazu **Základní**. Současně bychom ale měli zohlednit to, že slovo //vlastně// má v mluvené češtině také podobu //vlasně//. V mluveném korpusu tedy vyhledáme obě formy a výsledky sečteme.
 ^ Textový typ ^ relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^
@@ Řádek 75: / Řádek 73: @@
 Charakteristiky mluvčích v mluvených korpusech ([[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|věk, pohlaví, vzdělání, oblast]]), to vše si navolíte prostřednictvím volby **Frekvence → Vlastní → Podle typů textu**. Podobný výstup poskytuje i rychlá volba **Frekvence → Typy textů**, kterou aplikujete na konkordanci v mluveném korpusu řady Oral.
-[{{:kurz:vlastne_oral_frekdis.png?500|Frekvenční distribuce sociolingvistických proměnných FIXME}}]
+[{{:kurz:vlastne_oral_frekdis.png?500|Frekvenční distribuce sociolingvistických proměnných }}]
 <WRAP clear/>
@@ Řádek 91: / Řádek 89: @@
 Kromě uložení výsledku dotazu (tedy samotných konkordančních řádků) můžeme ukládat i výsledky analýz, především frekvenční a [[manualy:kontext:kolokace|kolokační]] seznamy. Ve výsledné tabulce (pokud data otevíráme v tabulkovém editoru) můžeme dále třídit, promazávat či jinak upravovat řádky podle svých představ a výzkumných záměrů.
-V korpusu SYN2015 najděte všechna slova obsahující segment //krv// (typ dotazu **Část slova**). Pomocí funkce **Frekvence → Lemmata** vytvořte tabulku, která řadí lemmata obsahující v některém ze svých tvarů řetězec znaků //krv// podle frekvence.
+V korpusu SYN2015 najděte všechna slova obsahující segment //krv// (jednoduchý dotaz s aktivací regulárních výrazů ''.*krv.*''). Pomocí funkce **Frekvence → Lemmata** vytvořte tabulku, která řadí lemmata obsahující v některém ze svých tvarů řetězec znaků //krv// podle frekvence.
-V horní části výsledné tabulky vidíme, že takových lemmat je celkem 129. Nás ale budou zajímat jen taková lemmata, která se v daném korpusu vyskytují alespoň desetkrát. Při ukládání zvolte položku **Uložit → Vlastní**, jež umožní omezit počet exportovaných řádků (od 1 do 38, na řádku 39 je slovo, které je v korpusu SYN2015 pouze devětkrát). Zvolte formát XLSX a data uložte. V okně, které se automaticky zobrazí, stačí už jen zvolit, zda chcete soubor otevřít ve formátu Excel (pozor, v tom případě není zatím uložený!), nebo ho rovnou uložit mezi své soubory.
+V horní části výsledné tabulky vidíme, že takových lemmat je celkem 129. Nás ale budou zajímat jen taková lemmata, která se v daném korpusu vyskytují alespoň desetkrát. Při ukládání zvolte položku **Uložit → Vlastní**, jež umožní omezit počet exportovaných řádků (od 1 do 39, na řádku 40 je slovo, které je v korpusu SYN2015 pouze devětkrát). Zvolte formát XLSX a data uložte. V okně, které se automaticky zobrazí, stačí už jen zvolit, zda chcete soubor otevřít ve formátu Excel (pozor, v tom případě není zatím uložený!), nebo ho rovnou uložit mezi své soubory.
 ===== Vyzkoušejte si na závěr =====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence