Nastavení

Toto je starší verze dokumentu!


3. lekce: Položili jsme dotaz. Jak ho vyhodnotit?

V první lekci tohoto průvodce pro práci s korpusy jsme se naučili položit první dotaz a rozlišit, který typ dotazu je vhodný na jaký problém. V druhé lekci jsme si ukázali různé možnosti zobrazení výsledků, především doplňkových informací o zdrojovém textu.

V této, třetí lekci se zaměříme zejména na to, jak zobrazená data co nejefektivněji vyhodnotit pomocí funkcí Frekvence a Konkordance → Třídění řádků.

Frekvenční distribuce

Funkce frekvenční distribuce, zkráceně nazývaná Frekvence, poskytuje přehled o frekvenci jevů v rámci vyhledaného dotazu – především pomáhá spočítat, kolik je těch či oněch slovních tvarů, lemmat nebo tagů, případně kolik je výskytů vyhledaného lemmatu či slovního tvaru v různých typech textů. Na rozdíl od konkordance, která zobrazuje tokeny, frekvenční distribuce slouží k zjištění frekvencí typů.

Frekvenční distribuce slovních tvarů

Frekvenční distribuce slovních tvarů (s rozlišováním velikosti)

Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem lemmatu noha.

1. krok: Vyhledání daného lemmatu v korpusu SYN2010 (29 990 výskytů)

2. krok: Volba položky v menu Frekvence → Slovní tvary

Poté se nám ukážou všechny slovní tvary (včetně všech rozdílů v psaní velkých a malých písmen). Celkový počet různých forem (typů) je zobrazen za slovem Celkem v horní části výsledné tabulky.

Frekvenční distribuce slovních tvarů (case-insensitive)

3. krok: Připadá-li nám tabulka nepřehledná, můžeme ji snadno upravit: Stačí v menu vybrat Frekvence → Vlastní, vybrat atribut word a zaškrtnout, že nechceme rozlišovat velikost.

4. krok: Z takové tabulky snadno vyčteme, kolikrát se slovo noha realizuje v „neživotném“ tvaru nohami – vyšlo vám to taky tak? A zajímá vás, zda a jak se liší užití tvarů nohama a nohami? Stačí prokliknout přes modře zvýrazněné p vlevo od vybraného tvaru (p značí pozitivní filtr dané konkordance, n je filtr negativní a zobrazil by všechny tvary kromě vybraného).

Pohled na 58 konkordančních řádků, k nimž se takto dostanete, ukazuje, že v naprosté většině se skutečně jedná o nohy od nábytku či třeba od hub. Životných subjektů, které těma nohama můžou dle vlastní vůle hýbat, mezi nimi bylo minimum.

Pozor, je třeba počítat s pádovou homonymií: např. nejfrekventovanější tvar nohy může být jak Gsg., tak Npl. či Apl.

Frekvenční distribuce tagů

Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. tag.

Výběr vlastního atributu pro frekvenční distribuci

Frekvenční distribuce slovních druhů v okolí KWICu

Adjektiva proslulý a věhlasný jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející KWICu. Vyhledáme postupně obě zkoumaná lemmata. Na výsledek (520 výskytů v SYN2010 pro věhlasný, 3277 pro proslulý) uplatníme frekvenční distribuci. V menu vybereme Frekvence → Vlastní Jako atribut zadáme pos (part-of-speech, slovní druh), pozici změníme na 1L (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva).

Zadání frekvenční distribuce na první pozici vlevo vedle KWICu

Ve výsledné tabulce zjistíme, že slovu proslulý předcházejí nejčastěji právě adverbia (označovaná zkratkou D), kdežto slovu věhlasný obvykle substantiva (N), a adverbia jsou dokonce až na šestém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu proslulý předchází adverbium ve 23 % případů v porovnání s 8 % případů u věhlasný.

TIP: Porovnávání absolutní frekvence může velmi často být zavádějící, spolehlivější a výhodnější je spočítat procentuální zastoupení jevů nebo relativní frekvence.

Frekvenční distribuce první předcházející pozice lemmatu věhlasný
Frekvenční distribuce první předcházející pozice lemmatu proslulý

Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné p (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme Frekvence → Vlastní, jako atribut zadáme word, pozici upravíme na 1L. Zjistíme tak, že s adjektivem proslulý se nejčastěji pojí adverbia světově, nechvalně a neblaze, kdežto slovo věhlasný je rozvíjeno zcela odlišným typem adverbií, např. tak, kdysi nebo dnes.

Vliv typu textu na jazyk

Pomocí frekvenční distribuce můžeme zkoumat i např. vliv toho, o jaký text se jedná (jde o beletrii, publicistiku, či odbornou literaturu? k jakému žánru nebo do kterého oboru lze text přiřadit?). Asi se shodneme, že kupříkladu citoslovce se nepoužívají ve všech textech stejně často, ale jak se to má třeba s takovým slovesem být? Je ho v jazyce odborných a populárněnaučných textů významně více než v beletrii?

  1. Nejprve zadáme lemma být do korpusu SYN2010.
  2. Dostaneme 4 010 619 výskytů.
  3. Zvolíme v menu Frekvence → Typy textů.
  4. První graf s položkami beletrie, publicistika a odborná ukáže, v jakém poměru k sobě výskyty slovesa být v těchto třech velkých skupinách.
  5. Další grafy zobrazí poměry v textových typech (txtype) a žánrech či disciplínách (genre).

TIP: Vzhledem k odlišnému počtu textů v jednotlivých velkých skupinách je vždy výhodnější sledovat relativní frekvenci (i.p.m.) než poněkud zavádějící frekvenci absolutní.

Frekvenční distribuce podle typů textů

Na následujícím příkladu si navíc ukážeme i možnosti lingvistické interpretace výsledků korpusové analýzy. Vyhledáme výplňové slovo vlastně v korpusu SYN2015 (Typ dotazu: Lemma) a porovnáme jeho frekvenční distribuci v různých textových typech s výskyty v mluvené češtině.

Frekvenční distribuce typů textů lemmatu vlastně

Po zobrazení konkordance z menu vybereme Frekvence → Typy textů, a protože jednotlivé textové typy a žánry nejsou zastoupeny stejným objemem textů, kliknutím na i.p.m. seřadíme výsledky podle relativní frekvence.

Nejvyšší relativní frekvenci (479 i.p.m.) najdeme u dramat, nejnižší (12 i.p.m.) u administrativních textů. Divadelní hry (txtype SCR: drama) jako druh psaného textu, který má nejblíže mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL, které obsahují neformální a nepřipravený mluvený jazyk. Zadáme tedy stejný dotaz, tentokrát do korpusu ORAL2013.

Jelikož mluvené korpusy nejsou (zatím) lemmatizované, automaticky nám zmizí typ dotazu Lemma. Naštěstí hledáme slovo, které se neskloňuje ani nečasuje, proto můžeme použít typ dotazu Základní. Současně bychom ale měli zohlednit to, že slovo vlastně má v mluvené češtině také podobu vlasně. V mluveném korpusu tedy vyhledáme obě formy a výsledky sečteme.

Textový typ relativní frekvence (i.p.m.)
SCR: drama 479
NOV: próza 367
SCI: odborná literatura 163
VER: poezie 139
ADM: administrativa 12
ORAL2013 (vlastně + vlasně) 1542

Nízká frekvence vlastně v administrativě a odborné literatuře je pochopitelná, tyto texty se snaží být stručné a přitom exaktní. Mluvený jazyk, který divadelní hry (ale oproti poezii třeba i próza, především v přímé řeči) napodobují, naopak jistou redundanci (kterou vlastně signalizuje) přímo vyžaduje. Jaké další proměnné mohou mít vliv na výskyt tohoto slova v neformálních mluvených projevech (v korpusu ORAL2013)?

Frekvenční distribuce charakteristik mluvčích

Věk, pohlaví, vzdělání, oblast – to vše si navolíte prostřednictvím volby Frekvence → Vlastní ve formuláři Frekvenční distribuce podle metainformací. Pokud chcete zjistit frekvenci jevu podle několika různých metainformací najednou, stačí pouze podržet tlačítko Ctrl a vybírat.

Frekvenční distribuce sociolingvistických proměnných

Třídění řádků

Kvalitativní analýza konkordančních řádků může těžit z funkce Třídění, která je k dispozici v menu pod položkou Konkordance. Tuto funkci můžeme využívat, dáváme-li přednost ruční kvalitativní analýze před analýzou frekvenční (viz první část této lekce věnovaná frekvenční distribuci).

Třídit řádky má smysl jen v případě, že celá konkordance není příliš rozsáhlá – je tedy rozumné pracovat s náhodnými vzorky, tj. s určitým zpracovatelným počtem náhodně vybraných řádků. Náhodný vzorek vytvoříme po zadání dotazu v menu Konkordance → Vzorek, kde si zadáme požadovaný rozsah vzorku. Doporučujeme vybírat spíše menší vzorky (defaultně nastavených je 250), které jsou ještě přehledné. Problematice vytváření náhodných vzorků se detailně věnuje samostatný článek.

Jakmile máme připravený náhodný vzorek, můžeme v něm řádky třídit abecedně, a to buď podle prvního znaku KWICu, nebo podle levého či pravého kontextu. Chceme například pomocí kvalitativní analýzy zjistit, s jakými slovy se obvykle pojí adjektivum červený. V menu vybereme položku Konkordance → Třídění. Pokud nás zajímá pravý kontext, kde se budou pravděpodobně vyskytovat mj. substantiva rozvíjená slovem červený, zvolíme atribut word nebo lemma, klíč třídění Pravý kontext a počet tokenů k třídění 1 (to znamená, že abecedně řadit se bude jen jediné slovo vpravo od KWICu).

Kvalitativní analýzou zjistíme, že po adjektivu červený skutečně v textu nejčastěji následují substantiva, např. víno, kříž, barva, krvinka či karta. Podobnou kvalitativní analýzou levého kontextu (klíč třídění změníme na Levý kontext) dospějeme k tomu, že adjektivum červený může být rozvíjeno slovy jako jasně či temně.

Uložení výsledků analýzy

Kromě uložení výsledku dotazu (tedy samotných konkordančních řádků) můžeme ukládat i výsledky analýz, především frekvenční distribuce či kolokační analýzy. Ve výsledné tabulce (pokud data otevíráme v tabulkovém editoru) můžeme dále třídit, promazávat či jinak upravovat řádky podle svých představ a výzkumných záměrů.

V korpusu SYN2010 najděte všechna slova obsahující segment krv (typ dotazu Podřetězec). Pomocí funkce Frekvence → Lemmata vytvořte tabulku, která řadí lemmata obsahující v některém ze svých tvarů podřetězec krv podle frekvence.

V horní části výsledné tabulky vidíte, že takových lemmat je celkem 138. Vás ale budou zajímat jen taková lemmata, která se v daném korpusu vyskytují alespoň desetkrát. Při ukládání zvolte položku Uložit → Vlastní, jež vám umožní omezit počet exportovaných řádků (od 1 do 39, na řádku 40 je slovo, které je v korpusu SYN2010 pouze devětkrát). Zvolte formát XLSX a data uložte. V okně, které se vám automaticky zobrazí, stačí už jen zvolit, zda chcete soubor otevřít ve formátu Excel (pozor, v tom případě není zatím uložený!), nebo ho rovnou uložit mezi své soubory.

Vyzkoušejte si na závěr

  1. V korpusu SYN2015 vyhledejte podřetězec pes a zjistěte, která lemmata obsahující tento podřetězec jsou nejfrekventovanější.
  2. Vytvořte frekvenční distribuci všech předložek bezprostředně předcházejících lemmatu vědomí v korpusu SYN2010.
  3. Jak se liší výskyt slova vole v mluvě mužů a žen? Opřete se o frekvenční distribuce v korpusech řady ORAL.

Výsledky najdete jako vždy v Řešení úkolů.

A nyní už odvážně do následující lekce, v níž se seznámíme s regulárními výrazy.