Vytváření náhodných vzorků

Tato stránka se věnuje praktickým radám, jak vytvářet náhodné vzorky v aplikaci KonText.
Statistickému vyhodnocení výsledků získaných na náhodných vzorcích se věnuje specializovaný článek.

Při vyhodnocování konkordančních údajů nastávají občas situace, kdy je třeba přistoupit k manuální analýze jednotlivých nalezených dokladů. Pokud je výchozí konkordance navíc rozsáhlá, je z praktických důvodů nezbytné provést vyhodnocení pouze na omezeném vzorku náhodně vybraných konkordancí.

Příklad: Stojíme před výzkumným úkolem zjistit v korpusu SYN2015, kolikrát je lemma kolej použito ve významu „studentská ubytovna“ a kolikrát se vyskytuje v původním významu „vodící dráha pro vlaky apod.“. Vzhledem k tomu, že celkový počet výskytů lemmatu kolej je 4039, je ospravedlnitelné přistoupit k analýze náhodných vzorků.

V rozhraní KonText jsou implementovány dvě funkce, které pracují s náhodným pořadím jednotlivých konkordančních řádek: Konkordance → Promíchat a Konkordance → Vzorek. Obě tyto funkce je možné při práci využít (viz popis níže), avšak než tak učiníme, měli bychom nejprve vyjasnit, jakým způsobem je náhodnost pořadí řádek v rozhraní KonText koncipována.

Princip náhodnosti a replikovatelnosti

Korpusové nástroje jsou vytvořeny tak, aby při opakování stejných kroků na stejném výchozím materiálu (korpusu či subkorpusu) poskytovaly totožné výsledky. Aby tedy byla zachována možnost opakovat jakýkoli korpusový výzkum, je i jakékoli promíchání pořadí konkordančních řádek replikovatelné se stejným výsledkem.

V případě funkce Konkordance → Promíchat si celý proces můžeme představit tak, že výchozí pořadí řádků v konkordanci bude změněno podle seznamu náhodných čísel. Promíchaná konkordance může být dále znovu a znovu znáhodňována podle stejného principu (pořadí jednotlivých řádek se mění, míra promíchanosti se však už nezvětšuje). Pokud se pokusíme tentýž postup zopakovat (stejný korpus, stejný dotaz a stejný počet aplikací funkce Promíchat), měli bychom dospět vždy ke stejným výsledkům.

V případě funkce Konkordance → Vzorek je uživatel nejprve vyzván, aby zadal velikost vzorku N. Ten je vytvořen na základě výchozí konkordance tak, že nejprve je konkordance promíchána a z takto promíchaného konkordančního seznamu je vybráno prvních N řádků. Jedná se tak principiálně o totožnou operaci jako v případě funkce Konkordance → Promíchat s tou výjimkou, že po znáhodnění konkordance dochází ještě k její redukci.

Ačkoliv obě funkce promíchávají konkordanci principiálně stejným způsobem, nejsou totožné v tom smyslu, že by dávaly identické výsledky. Můžeme si to představit tak, že každá z funkcí využívá k promíchávání jiný seznam náhodných čísel.

Vytváření několika náhodných vzorků

Chceme-li vytvořit několik náhodných vzorků, lze doporučit dva způsoby, které se liší tím, zda k analýze budeme využívat rozhraní KonText, či zda chceme výsledky uložit a zpracovávat je v nějakém externím nástroji.

Postup 1 – Promíchání konkordance

Pokud nám na vyhodnocení stačí prostředí KonText, můžeme vytvořit sérii náhodných vzorků tak, že aplikujeme funkci Konkordance → Promíchat a každá stránka konkordančního seznamu pak pro nás představuje samostatný vzorek (počet řádků na stránku lze nastavit v menu Zobrazeni → Obecné volby zobrazení, čímž získáme vzorky o požadovaném rozsahu).

Postup, při kterém analyzujeme pouze první stránku promíchané konkordance a následně znovu aplikujeme funkci Promíchat, není doporučeníhodný. Problém může spočívat v tom, že při tomto postupu není zaručeno, aby ve dvou po sobě následujících promícháních nebyly na první stránce konkordančního seznamu některé řádky stejné. Nebezpečí průniku mezi takto vytvořenými vzorky se zvětšuje, pokud je výchozí konkordance relativně málo rozsáhlá.

Postup 2 – Vytváření vzorku

Funkce Konkordance → Vzorek vybere z promíchané konkordance N prvních řádků. Pokud se spokojíme s jedním vzorkem, je to zcela postačující – konkordanci buď analyzujeme přímo v KonTextu, nebo ji můžeme uložit a pracovat s ní v jiném nástroji.

Problém nastane, pokud potřebujeme vzorků víc. Funkce je totiž koncipována tak, aby každé vytvoření vzorku na stejném dotazu a korpusu dávalo stejný výsledek (viz výše). Pokud tedy chceme využít tuto funkci pro vytváření a vzorků o délce N, je třeba vytvořit jeden velký vzorek o rozsahu a × N, ten uložit a v textovém editoru pak ručně rozdělit na požadovaných a částí.

Vyhodnocení

Výsledky získané z analýz jednotlivých vzorků je potřeba statisticky vyhodnotit. Samotný průměr nemusí být dostatečný, zejména pokud je rozptyl hodnot mezi vzorky značný. Této problematice se věnuje specializovaný článek.

— Václav Cvrček

Historie: • verze16ud • api • vytvareni_vzorku