Nastavení

Paradigmatický dotaz

Kromě syntagmatického dotazu (hledáme množinu tokenů, které tvoří KWIC spolu s okolním kontextem, přičemž výsledek se nám zobrazí v konkordanci) lze využít rovněž hledání paradigmatické, jež je vlastně kombinací několika dílčích syntagmatických dotazů a přináší průnik jejich frekvenčních distribucí. Výsledkem je tu tak množina typů, které odpovídají všem jednotlivým syntagmatickým dotazům.1)

Typickým příkladem využití paradigmatického dotazu může být hledání slov patřících k jednomu morfologickému paradigmatu. Pokud bychom chtěli kupř. identifikovat všechna lemmata, která se skloňují podle vzoru kuře, mohli bychom postupovat takto:

  1. vytvoříme soupis lemmat, která končí na -e a jejichž slovní tvar končí na -ete (např. kuřete) – v syntaxi CQL pomocí dotazu [lemma=".+e" & word=".+ete"] a z něj vytvořené frekvenční distribuce;
  2. vytvoříme soupis lemmat, která končí na -e a jejichž slovní tvar končí na -eti (např. kuřeti) – pomocí dotazu [lemma=".+e" & word=".+eti"] a z něj vytvořené frekvenční distribuce;
  3. vytvoříme soupis lemmat, která končí na -e a jejichž slovní tvar končí na -ata nebo -at (např. kuřata nebo kuřat) – pomocí dotazu [lemma=".+e" & word=".+ata?"] a z něj vytvořené frekvenční distribuce.

Následně vyhledáme průnik těchto tří soupisů, tj. slov, která mají alespoň jeden výskyt od všech tří specifikovaných tvarů a ve všech případech jim je přiřazeno lemma končící na -e. Seznam bude obsahovat mj. lemmata zvíře, děvče, prase, kníže, dvojče, kuře, rajče, vole, vnouče, tele, morče, batole, varle, ptáče, sele, páže, lvíče, dobytče, kůzle, velkokníže, šuple apod.

Jistě nelze takovýto soupis považovat za vyčerpávající ani za zcela bezchybný. Z jedné strany se může stát, že lemma, které by do výčtu z hlediska svého morfologického chování patřilo, se v něm neobjeví, protože v použitém korpusu nedisponuje všemi třemi tvary, které jsme vybrali za klíčové pro identifikaci paradigmatu. Z druhé strany se může přihodit (jakkoli se to ve zvoleném příkladu nestalo), že se v seznamu objeví slovo, které je formálně podobné slovům vzoru kuře ve zvolených tvarech, nicméně k tomuto typu deklinace svými jinými tvary nepatří.

Pokud bychom se pokusili o zobecnění toho, jakou má paradigmatický dotaz strukturu, musíme ho rozdělit na dvě roviny:

  • rovina specifikace, tj. ta úroveň anotace, kterou užíváme ke specifikování paradigmatické jednotky (v příkladu uvedeném výše to byly lemmata a slovní tvary)
  • rovina zobecnění, tj. ta úroveň anotace, jejíž jednotky budou výsledkem dotazu (v příkladu výše jsou to lemmata)

Ptáme-li se tedy např. na morfologické paradigma, hledáme lexémy (tj. rovina zobecnění = lemmata), které mají určité vlastnosti, jež můžeme zadat např. pomocí tvaru lemmatu, slovního tvaru či podoby tagu (= rovina specifikace). Z toho plyne, že paradigmatické dotazování lze smysluplně realizovat na takových datech, která disponují alespoň dvěma rovinami anotace (lhostejno zda poziční či strukturní anotace).

Vzhledem k tomu, že výsledkem vyhodnocení paradigmatického dotazu je množina typů daná průnikem jednotlivých syntagmatických dotazů, je zřejmé, že musíme specifikovat minimálně dvě vlastnosti, které výsledná jednotka splňuje. Podstatné je, že mezi dílčími syntagmatickými dotazy nelze najít průnik na úrovni tokenů (např. žádný token nekončí zároveň na -ete i na -ata), v oblasti typů už však (na vhodně zvolené rovině zobecnění) ano – lemmata, která spojují slovní tvary s oběma koncovkami, v korpusu nalézt lze.

Specifický druh paradigmatického dotazování – slovotvorný – umožňuje i program Morfio. Pro další příklady využití paradigmatických dotazů viz Cvrček 2017.2)

Václav Cvrček

Související odkazy

1)
V. Cvrček: Paradigmatické korpusové dotazy a moderní diachronie. In: M. Stluka - M. Škrabal (eds.): Liſka a czban – Sborník příspěvků k 70. narozeninám prof. Karla Kučery. Praha, Nakladatelství Lidové noviny, s. 117–129.
2)
ibid.