Obsah
Menu: Konkordance
Základním typem vyhodnocení dotazu je konkordance, resp. konkordanční seznam. Jedná se o výpis všech slov nebo frází, které odpovídají dotazu (KWIC), spolu s jejich pravým a levým kontextem, příp. i údajem o zdrojovém textu. Dlouhý konkordanční seznam je většinou rozdělen na několik stránek (jejich výchozí délku lze měnit), mezi kterými je možné přecházet pomocí šipek umístěných v záhlaví a zápatí konkordančního seznamu. Parametry zobrazení (počet řádků na stránce, délka kontextu apod.) je možné nastavit pomocí volby Zobrazení. Zároveň je dobré mít na paměti, že vysoký počet řádků na stránce může zpomalit práci s KonTextem.
V následujících oddílech jsou popsány funkcionality stránky, základy práce s konkordančním seznamem, třídění, promíchání seznamu a vytváření vzorku. Další práci s konkordancí (filtrování, frekvenční a kolokační analýze) jsou věnovány zvláštní stránky odpovídající dalším položkám menu.
Navigace s posloupností úprav konkordance
Pod logem KonTextu je umístěna navigace, která jednak poskytuje základní informace o prohledávaném korpusu (položka Korpus), jednak umožňuje upravit prvotní formulaci dotazu (položka Dotaz) i změnit případné navazující úpravy nad konkordančním seznamem (promíchání a další položky odpovídající úpravám).
Text odkazu v položce Dotaz vždy zjednodušeně zobrazuje uživatelem zadaný dotaz, za ním je v závorce uveden počet výskytů. Dotaz lze pomocí odkazu zobrazit i editovat, tj. změnit jeho parametry přímo nad vyhledanou konkordancí (bez nutnosti iniciovat nový dotaz). Tuto funkci oceníte zejména v případě, že chcete původní dotaz zpřesnit či doladit. Při editaci dotazu se zároveň musíte rozhodnout, zda se mají vykonat i následující operace nad konkordancí. Jejich součástí je i užitečná operace promíchání (lze ji nastavit přímo ve vyhledávácím formuláři, případně spustit posléze z menu Konkordance → Promíchání), proto je obvykle vhodné ponechat volbu Automaticky provést i následující operace zaškrtnutou.
Následující položky na řádku pak zastupují jednotlivé kroky v posloupnosti úprav, které mění podobu a rozsah konkordance. S nimi je možné pracovat analogicky jako s úvodním dotazem.
Popis dotazu s posloupností všech úprav konkordance je nakonec ještě k dispozici v přehledné tabulkové podobě po kliknutí na poslední odkaz podrobnosti.
Vedle editace se zde může uživatel jednoduše vrátit k jednotlivým krokům a mezifázím a obnovit tak podobu konkordance z kteréhokoli kroku. Například se zde můžeme snadno vrátit k výchozímu (a následně promíchanému) konkordančnímu seznamu pomocí odkazu Zobrazit na druhém řádku s operací promíchání.
Popis dotazu tak umožňuje zobrazit přesnou specifikaci dotazu pro pozdější využití, např. ve výzkumné zprávě, vědecké práci apod. Představuje také alternativu prostého použití tlačítka Zpět (Undo) v prohlížeči. Zatímco Popis dotazu umožňuje procházet a editovat operace nad konkordancí, pomocí tlačítka Zpět lze procházet (ovšem jen v pevně daném pořadí) jak konkordance, tak například výsledky frekvenční nebo kolokační analýzy.
Práce s konkordancí
Základní představení
Konkordanční seznam je rozdělen na několik částí. Uprostřed je barevně zvýrazněn KWIC, jenž je obklopen pravým a levým kontextem. V levém sloupci je u každého řádku uvedena stručná informace o zdrojovém textu (její podoba závisí na nastavení v menu Zobrazení). V záhlaví konkordance se nacházejí základní informace, jako je absolutní frekvence, relativní frekvence (i.p.m.), ARF a status konkordance (zda je setříděna, nebo promíchána). Zcela vpravo jsou umístěny šipky pro prohlížení jednotlivých stránek konkordance.
Další informace o textu
Podrobnější informace o textu, z něhož konkrétní konkordanční řádek pochází, se zobrazí po kliknutí na modře zbarvené metainformace vlevo u každého řádku. Takto vyvolaná detailní metainformace se objeví v okně v dolní části konkordančního seznamu, ve kterém jsou všechny údaje o daném textu a strukturách, v nichž se KWIC nachází (viz seznamy použitých zkratek).
Zobrazení textového okolí KWIC
Textové okolí klíčového slova je možné rozšířit buď pro všechny konkordanční řádky (viz menu Zobrazení → Obecné volby zobrazení, volba Velikost KWIC kontextu (počet pozic)), nebo je možné detailně prohlížet širší kontext pouze jedné z nich ve speciálním okně, které se objeví při kliknutí na KWIC (označený konkordanční řádek se přitom pro snazší orientaci podbarví modře). Zde je možné (v omezeném rozsahu) kontext rozšiřovat pomocí modrých šipek na začátku a na konci ukázky.
V novějších psaných korpusech (počínaje SYN2020 a SYN verze9) lze přepnout mezi dvěma možnostmi zobrazení okna: základní zobrazení textového okolí odpovídající tokenizaci daného korpusu, nebo zobrazení formátovaného textu zachovávající tokenizaci a do určité míry i typografickou podobu zdrojového textu (toho lze například využít pro přehlednější zobrazení poezie).
V mluvených korpusech je rovněž možné přepnout mezi dvěma možnostmi zobrazení: lineární zobrazení (stejně jako v psaných korpusech), nebo zobrazení podle promluv jednotlivých mluvčích. Zobrazení dialogu podle promluv jednotlivých mluvčích usnadňuje orientaci v transkriptech mluveného jazyka.
Ruční označování řádek
V každém řádku je úplně vlevo také k dispozici zaškrtávací políčko pro ruční označování jednotlivých konkordančních řádek.
Označování řádek je možné provádět ve dvou režimech:
- základní: výběr konkrétních konkordančních řádek s možností každou z nich pouze vybrat či nikoliv
- skupiny: obecná klasifikace konkordančních řádek do skupin (např. podle významu) pomocí čísel zadaných uživatelem (řádky se následně barevně označí podle skupin)
V obou režimech se při označování řádek objeví v záhlaví konkordančního seznamu odkaz s průběžně aktualizovaným počtem vybraných řádek. Oba režimy se však liší v možnostech další práce s označenými řádky, které jsou k dispozici po kliknutí na tento odkaz: zatímco základní výběr vede pouze k odstranění, nebo naopak ponechání vybraných řádků v konkordanci, možnosti práce se skupinami jsou širší. Jako první krok však v tomto případě KonText požaduje uložení zadané klasifikace do skupin, které je nutné pro zachování perzistence – po uložení se totiž změní URL tak, aby zůstalo jednoznačným identifikátorem zadaného dotazu i provedené klasifikace. Poté je možné zobrazení jednoduché statistiky vybraných skupin, třídění konkordancí podle nich, nebo také návrat k další editaci klasifikace do skupin. U velkých, mnohastránkových konkordancí je praktické moci se kdykoliv vrátit na stránku s prvním vybraným řádkem.
Vygenerovanou adresu (URL) nesoucí informaci o skupinách a počtech dokladů v nich je možné vyhodnotit ve statistické kalkulačce Calc, konkrétně v modulu Víc jevů - 1 vzorek, který podává přehled o doloženosti jednotlivých skupin a signifikanci rozdílu jejich frekvencí.
Syntaktický graf
V případě, že je korpus syntakticky označkován (např. SYN2015), nachází se mezi zaškrtávacím políčkem pro označování řádek a metainformací o textu ikonka sloužící k vyvolání syntaktického grafu.
Funkce položek v menu
Zobrazit
Tato funkce ukáže stávající konkordanci (pokud není právě zobrazena) po provedení všech úprav na konkordančním seznamem. Toho se dá využít například po několika krocích analýzy, jako je 1. úvodní dotaz > 2. zobrazení jen určité části výsledků p-filtrem > 3. frekvenční analýza. Pomocí funkce Konkordance → Zobrazit pak lze ze stránky s frekvenční analýzou otevřít konkordanci (odpovídající p-filtru z bodu 2), nad níž byla analýza provedena.
Třídění
Jednoduchou metodou, jak se zorientovat v rozsáhlé konkordanci, je třídění, které seřadí podle abecedy konkordanci a seskupí tak analogické případy k sobě. Tuto funkci lze na obrazovce s konkordancí pohodlně vyvolat stiskem klávesy S
anebo pomocí volby Konkordance → Třídění.
Rozhraní KonText poskytuje několik možností abecedního setřídění konkordance.
- Jednoduché třídění
- Víceúrovňové třídění
Při jednoduchém třídění zvolíme, podle jakého kritéria se má třídit (k výběru je libovolný poziční nebo strukturní atribut) a v jakém rozsahu bude třídění probíhat (zda má být setříděn KWIC, pravý nebo levý kontext). Ve výsledku tak můžeme dostat konkordance abecedně seřazené např. podle prvního předcházejícího slova, podle tvaru klíčového slova, nebo podle textového typu.
Volba Počet tokenů ke třídění určuje rozsah kontextu nebo KWICu (je-li víceslovný), na něž se třídící mechanismus bude zaměřovat. Zvolíme-li hodnotu 2 pro pravý kontext, budou výsledky setříděny abecedně podle prvního a druhého slova následující za KWICem.
Volby Nerozlišovat velikost a Retrográdně se aplikují v jednoduchém i víceúrovňovém třídění. V případě první volby jde o to, zda budou při třídění rozlišována velká/malá písmena (case-sensitive), nebo zda budou chápána jako stejný znak (case-insensitive). Druhá volba pak umožňuje klasické abecední třídění (nezaškrtnuto), nebo třídění retrográdní, tj. abecední třídění podle konce slova (nikoli podle jeho začátku, jak je běžné).
Víceúrovňové třídění umožňuje kombinovat všechny možné způsoby třídění do maximálně čtyřstupňové hierarchie. Je tedy možné třídit konkordanci v 1. úrovni podle textového typu, konkordance se stejným textovým typem jsou pak tříděny v 2. úrovni (např. podle prvního pravého kontextového slova) a ve 3. úrovni podle klíčového slova samotného.
To, že konkordance je setříděná, je indikováno ve stavovém řádku konkordance (vedle údajů o její frekvenci).
Promíchat
V základním nastavení jsou jednotlivé řádky konkordance setříděné v pořadí, v jakém je nacházíme v korpusu (např. v korpusu SYN2015 jsou nejprve umístěny texty beletristické, pak odborné a nakonec publicistika). To má výhodu zejména v rychlejším vyhledání odpovídajících řádků. Avšak v případě, že je konkordance rozsáhlá a potřebujeme získat její reprezentativní vzorek (např. pro manuální analýzu), je vhodnější pracovat s náhodně promíchanými řádky. Výsledkem operace Promíchat je promíchání jednotlivých řádek konkordance, které je sice náhodné, ale zároveň opakovatelné.
Promíchání řádků lze dosáhnout dvěma způsoby:
- Před začátkem vyhledávání vybráním volby Promíchat konkordanční řádky na stránce Dotaz → Konkordance přímo ve vyhledávácím formuláři vedle tlačítka Hledat.
- Po vyhodnocení dotazu samostatnou volbou Konkordance → Promíchat.
Volbu Promíchat konkordanční řádky doporučujeme mít stále zapnutou, což zajistí, že každá konkordance před tím, než je zobrazena, bude nejprve výše popsaným způsobem znáhodněna. (Po prvním přepnutí zůstane volba aktivovaná i pro následující dotazy.) Takovýto postup funguje jako účinná prevence před vytvářením nekorektních závěrů na základě studia vzorku výsledků pocházejících z nereprezentativní sady textů.
Poznámka: Volbu je doporučeno vypínat pouze přechodně v případech, kdy lze očekávat rozsáhlou výslednou konkordanci, typicky při hledání frekventovaného jevu v korpusu o velikosti řádově miliardy tokenů. Zvláště u těchto rozsáhlejších výsledků je třeba počítat s tím, že zapnuté promíchání řádků může významně prodloužit dobu čekání na zobrazení konkordance.
Pokud máme konkordanční řádky již jednou promíchané, volba Konkordance → Promíchat provede jejich další náhodné přeuspořádání. Pro každou konkordanci existuje jednoznačný algoritmus promíchávání, který způsobí, že výsledky po prvním, druhém, třetím… n-tém promíchání se při opakovaných pokusech na stejném dotazu shodují. To zaručuje opakovatelnost experimentů na korpusech i při použití promíchané konkordance.
Vzorek
Alternativou k promíchání při práci zejména s rozsáhlou konkordancí je vytváření náhodných vzorků (Konkordance → Vzorek resp. klávesová zkratka M
). Výhodou tohoto přístupu je zejména fakt, že se rozsáhlá konkordance zmenší na základě náhodného výběru na rozsah, který je lidskými silami analyzovatelný. Omezíme-li rozsah konkordance tímto způsobem, ovlivní to samozřejmě absolutní frekvence výsledků. Pokud je ovšem vzorek dostatečně velký, relativní frekvence (tj. poměry mezi zkoumanými jevy) by měly zůstat zachovány.
Možnostem vytváření vzorků se věnuje specializovaný návod v rámci manuálu.