Skrýt
Nastavení

3. lekce: Položili jsme dotaz. Jak ho vyhodnotit?

V první lekci tohoto průvodce pro práci s korpusy jsme se naučili položit první dotaz a rozlišit, který typ dotazu je vhodný na jaký problém. V druhé lekci jsme si ukázali různé možnosti zobrazení výsledků, především doplňkových informací o zdrojovém textu.

V této, třetí lekci se zaměříme zejména na to, jak zobrazená data co nejefektivněji vyhodnotit pomocí funkcí Frekvence a Konkordance → Třídění řádků.

Frekvence

Funkce frekvenční distribuce, zkráceně nazývaná Frekvence, poskytuje přehled o frekvenci jevů v rámci vyhledaného dotazu – především pomáhá spočítat, kolik je těch či oněch slovních tvarů, lemmat nebo tagů, případně kolik je výskytů vyhledaného lemmatu či slovního tvaru v různých typech textů. Na rozdíl od konkordance, která zobrazuje tokeny, frekvenční distribuce slouží k zjištění frekvencí typů.

Vedle rychlých voleb (slovní tvary, dokumenty, typy textů apod.) nabízí funkce Frekvence i široce nastavitelnou volbu Vlastní. Ta umožňuje vytvářet frekvenční seznamy pozičních atributů (tzv. Běžná frekvenční distribuce), seznamy strukturních atributů (Podle typů textu) a seznamy kombinující dva atributy (tomuto typu se tu věnovat nebudeme, je popsán v manuálu).

Frekvenční distribuce slovních tvarů

Frekvenční distribuce slovních tvarů (s rozlišováním velikosti )

Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem lemmatu noha. V korpusu SYN2010 se jich nachází 29 990. V menu zvolíme volbu Frekvence → Slovní tvary, načež se nám ukážou všechny slovní tvary (včetně všech rozdílů v psaní velkých a malých písmen). Celkový počet různých forem (typů) je zobrazen za slovem Celkem v horní části výsledné tabulky.

Frekvenční distribuce slovních tvarů (case-insensitive )

Připadá-li nám tabulka nepřehledná, můžeme ji snadno upravit: stačí v menu vybrat volbu Frekvence → Vlastní, zvolit atribut word a zaškrtnout, že nechceme rozlišovat velikost. Z výsledné tabulky snadno vyčteme, kolikrát se slovo noha realizuje v „neživotném“ tvaru nohami. Pokud vás zajímá, zda a jak se liší užití tvarů nohama a nohami, stačí prokliknout přes modře zvýrazněné p vlevo od vybraného tvaru (p značí pozitivní filtr dané konkordance, n je filtr negativní a zobrazil by všechny tvary kromě vybraného).

Pohled na 58 konkordančních řádků, k nimž se takto dostanete, ukazuje, že v naprosté většině se skutečně jedná o nohy od nábytku či třeba od hub. Životných subjektů, které těma nohama můžou dle vlastní vůle hýbat, mezi nimi bylo minimum.

Pozor, je třeba počítat s pádovou homonymií: např. nejfrekventovanější tvar nohy může být jak Gsg., tak Npl. či Apl.

Frekvenční distribuce tagů

Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. tag.

Výběr vlastního atributu pro frekvenční distribuci

Frekvenční distribuce slovních druhů v okolí KWICu

Adjektiva proslulý a věhlasný jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející KWICu. Vyhledáme postupně obě zkoumaná lemmata. Na výsledek (520 výskytů v SYN2010 pro věhlasný, 3277 pro proslulý) uplatníme frekvenční distribuci. V menu vybereme Frekvence → Vlastní Jako atribut zadáme pos (part-of-speech, slovní druh), pozici změníme na 1L (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva).

Zadání frekvenční distribuce na první pozici vlevo vedle KWICu

Ve výsledné tabulce zjistíme, že slovu proslulý předcházejí nejčastěji právě adverbia (označovaná zkratkou D), kdežto slovu věhlasný obvykle substantiva (N), a adverbia jsou dokonce až na šestém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu proslulý předchází adverbium ve 23 % případů v porovnání s 8 % případů u věhlasný.

Porovnávání absolutní frekvence může velmi často být zavádějící, spolehlivější a výhodnější je spočítat procentuální zastoupení jevů nebo relativní frekvence.

Frekvenční distribuce první předcházející pozice lemmatu věhlasný
Frekvenční distribuce první předcházející pozice lemmatu proslulý

Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné p (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme Frekvence → Vlastní, jako atribut zadáme word, pozici upravíme na 1L. Zjistíme tak, že s adjektivem proslulý se nejčastěji pojí adverbia světově, nechvalně a neblaze, kdežto slovo věhlasný je rozvíjeno zcela odlišným typem adverbií, např. tak, kdysi nebo dnes.

Vliv typu textu na jazyk

Pomocí frekvenční distribuce můžeme zkoumat mimo jiné vliv toho, o jaký text se jedná. Vyhledejme výplňkové slovo vlastně v korpusu SYN2015 (Typ dotazu: Lemma) a porovnáme jeho frekvenční distribuci v různých textových typech s výskyty v mluvené češtině.

Po zobrazení konkordance z menu vybereme Frekvence → Typy textů, a protože jednotlivé textové typy a žánry nejsou zastoupeny stejným objemem textů, kliknutím na i.p.m. seřadíme výsledky podle relativní frekvence.

Nejvyšší relativní frekvenci (479 i.p.m.) najdeme u dramat, nejnižší (12 i.p.m.) u administrativních textů. Divadelní hry (txtype SCR: drama) jako druh psaného textu, který má nejblíže mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL, které obsahují neformální a nepřipravený mluvený jazyk. Zadáme tedy stejný dotaz, tentokrát do korpusu ORAL2013.

Jelikož ORAL2013 není lemmatizovaný, automaticky nám zmizí typ dotazu Lemma. Naštěstí hledáme slovo, které se neskloňuje ani nečasuje, proto můžeme použít typ dotazu Základní. Současně bychom ale měli zohlednit to, že slovo vlastně má v mluvené češtině také podobu vlasně. V mluveném korpusu tedy vyhledáme obě formy a výsledky sečteme.

Textový typ relativní frekvence (i.p.m.)
SCR: drama 479
NOV: próza 367
SCI: odborná literatura 163
VER: poezie 139
ADM: administrativa 12
ORAL2013 (vlastně + vlasně) 1542

Nízká frekvence vlastně v administrativě a odborné literatuře je pochopitelná, tyto texty se snaží být stručné a přitom exaktní. Mluvený jazyk, který divadelní hry (ale oproti poezii třeba i próza, především v přímé řeči) napodobují, naopak jistou redundanci (kterou vlastně signalizuje) přímo vyžaduje.

Frekvenční distribuce charakteristik mluvčích

Charakteristiky mluvčích v mluvených korpusech (věk, pohlaví, vzdělání, oblast), to vše si navolíte prostřednictvím volby Frekvence → Vlastní → Podle typů textu. Podobný výstup poskytuje i rychlá volba Frekvence → Typy textů, kterou aplikujete na konkordanci v mluveném korpusu řady Oral.

Frekvenční distribuce sociolingvistických proměnných

Třídění řádků

Kvalitativní analýza konkordančních řádků může těžit z funkce Třídění, která je k dispozici v menu pod položkou Konkordance. Tuto funkci lze využít, dáváme-li přednost ruční kvalitativní analýze před analýzou frekvenční (viz první část této lekce věnovaná frekvenční distribuci).

Třídit řádky má smysl jen v případě, že celá konkordance není příliš rozsáhlá – je tedy rozumné pracovat s náhodnými vzorky, tj. s určitým zpracovatelným počtem náhodně vybraných řádků. Náhodný vzorek vytvoříme po zadání dotazu v menu Konkordance → Vzorek, kde si zadáme požadovaný rozsah vzorku. Doporučujeme vybírat spíše menší vzorky (defaultně nastavených je 250), které jsou ještě přehledné. Problematice vytváření náhodných vzorků se detailně věnuje samostatný článek.

Jakmile máme připravený náhodný vzorek, můžeme v něm řádky abecedně seřadit, a to buď podle prvního znaku KWICu, nebo podle levého či pravého kontextu. Chceme například pomocí kvalitativní analýzy zjistit, s jakými slovy se obvykle pojí adjektivum červený. V menu vybereme položku Konkordance → Třídění. Pokud nás zajímá pravý kontext, kde se budou pravděpodobně vyskytovat mj. substantiva rozvíjená slovem červený, zvolíme atribut word nebo lemma, klíč třídění Pravý kontext a počet tokenů k třídění 1 (to znamená, že abecedně řadit se bude jen jediné slovo vpravo od KWICu).

Kvalitativní analýzou zjistíme, že po adjektivu červený skutečně v textu nejčastěji následují substantiva, např. víno, kříž, barva, krvinka či karta. Podobnou kvalitativní analýzou levého kontextu (klíč třídění změníme na Levý kontext) dospějeme k tomu, že adjektivum červený může být rozvíjeno slovy jako jasně či temně.

Uložení výsledků analýzy

Kromě uložení výsledku dotazu (tedy samotných konkordančních řádků) můžeme ukládat i výsledky analýz, především frekvenční a kolokační seznamy. Ve výsledné tabulce (pokud data otevíráme v tabulkovém editoru) můžeme dále třídit, promazávat či jinak upravovat řádky podle svých představ a výzkumných záměrů.

V korpusu SYN2015 najděte všechna slova obsahující segment krv (typ dotazu Část slova). Pomocí funkce Frekvence → Lemmata vytvořte tabulku, která řadí lemmata obsahující v některém ze svých tvarů řetězec znaků krv podle frekvence.

V horní části výsledné tabulky vidíme, že takových lemmat je celkem 129. Nás ale budou zajímat jen taková lemmata, která se v daném korpusu vyskytují alespoň desetkrát. Při ukládání zvolte položku Uložit → Vlastní, jež umožní omezit počet exportovaných řádků (od 1 do 38, na řádku 39 je slovo, které je v korpusu SYN2015 pouze devětkrát). Zvolte formát XLSX a data uložte. V okně, které se automaticky zobrazí, stačí už jen zvolit, zda chcete soubor otevřít ve formátu Excel (pozor, v tom případě není zatím uložený!), nebo ho rovnou uložit mezi své soubory.

Vyzkoušejte si na závěr

  1. V korpusu SYN2015 vyhledejte část slova pes a zjistěte, která lemmata obsahující tuto sekvenci znaků jsou nejfrekventovanější.
  2. Vytvořte frekvenční distribuci všech předložek bezprostředně předcházejících lemmatu vědomí v korpusu SYN2010.
  3. Jak se liší výskyt slova vole v mluvě mužů a žen? Opřete se o frekvenční distribuce v korpusech řady ORAL.

Výsledky najdete jako vždy v Řešení úkolů.

A nyní už odvážně do následující lekce, v níž se seznámíme s regulárními výrazy.