Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:vytvareni_vzorku [2018/08/08 13:57] – vaclavcvrcek | kurz:vytvareni_vzorku [2018/08/08 14:05] (aktuální) – [Postup 1 – Promíchání konkordance] vaclavcvrcek |
---|
====== Vytváření náhodných vzorků ====== | ====== Vytváření náhodných vzorků ====== |
| |
//Tato stránka se věnuje praktickým radám, jak vytvářet náhodné vzorky v aplikaci [[manualy:kontext:index|KonText]].// | //Tato stránka se věnuje praktickým radám, jak vytvářet náhodné vzorky v aplikaci [[manualy:kontext:index|KonText]].//\\ |
//Statistickému vyhodnocení výsledků získaných na náhodných vzorcích se věnuje [[kurz:nahodne_vzorky|specializovaný článek]].// | //Statistickému vyhodnocení výsledků získaných na náhodných vzorcích se věnuje [[kurz:nahodne_vzorky|specializovaný článek]].// |
| |
Při vyhodnocování konkordančních údajů nastávají občas situace, kdy je třeba přistoupit k manuální analýze jednotlivých nalezených dokladů. Pokud je výchozí [[pojmy:konkordance|konkordance]] navíc rozsáhlá, je z praktických důvodů nezbytné provést vyhodnocení pouze na omezeném vzorku náhodně vybraných konkordancí. | Při vyhodnocování konkordančních údajů nastávají občas situace, kdy je třeba přistoupit k manuální analýze jednotlivých nalezených dokladů. Pokud je výchozí [[pojmy:konkordance|konkordance]] navíc rozsáhlá, je z praktických důvodů nezbytné provést vyhodnocení pouze na omezeném vzorku náhodně vybraných konkordancí. |
| |
<wrap lo>Příklad: Stojíme před výzkumným úkolem zjistit v korpusu [[cnk:syn2015|SYN2015]], kolikrát je lemma //kolej// použito ve významu "studentská ubytovna" a kolikrát se vyskytuje v původním významu "vodící dráha pro vlaky apod.". Vzhledem k tomu, že celkový počet výskytů lemmatu kolej je 4039, je ospravedlnitelné přistoupit k analýze náhodných vzorků.</wrap> | <WRAP round info 70%> |
| Příklad: Stojíme před výzkumným úkolem zjistit v korpusu [[cnk:syn2015|SYN2015]], kolikrát je lemma //kolej// použito ve významu "studentská ubytovna" a kolikrát se vyskytuje v původním významu "vodící dráha pro vlaky apod.". Vzhledem k tomu, že celkový počet výskytů lemmatu //kolej// je 4039, je ospravedlnitelné přistoupit k analýze náhodných vzorků. |
| </WRAP> |
| |
V rozhraní [[manualy:kontext:index|KonText]] jsou implementovány dvě funkce, které pracují s náhodným pořadím jednotlivých konkordančních řádek: [[manualy:kontext:konkordance#promichat|Konkordance → Promíchat]] a [[manualy:kontext:konkordance#vzorek|Konkordance → Vzorek]]. Obě tyto funkce je možné při práci využít (viz popis níže), avšak než tak učiníme, měli bychom nejprve vyjasnit, jakým způsobem je náhodnost pořadí řádek v rozhraní KonText koncipována. | V rozhraní [[manualy:kontext:index|KonText]] jsou implementovány dvě funkce, které pracují s náhodným pořadím jednotlivých konkordančních řádek: [[manualy:kontext:konkordance#promichat|Konkordance → Promíchat]] a [[manualy:kontext:konkordance#vzorek|Konkordance → Vzorek]]. Obě tyto funkce je možné při práci využít (viz popis níže), avšak než tak učiníme, měli bychom nejprve vyjasnit, jakým způsobem je náhodnost pořadí řádek v rozhraní KonText koncipována. |
| |
===== Princip náhodnosti a replikovatelnosti ===== | ===== Princip náhodnosti a replikovatelnosti ===== |
| |
Korpusové nástroje jsou koncipovány tak, aby při opakování stejných kroků na stejném výchozím materiálu (korpusu či subkorpusu) poskytovaly totožné výsledky. Aby tedy byla zachována možnost opakovat jakýkoli korpusový výzkum, je i jakékoli promíchání pořadí konkordančních řádek replikovatelné se stejným výsledkem. | Korpusové nástroje jsou vytvořeny tak, aby při opakování stejných kroků na stejném výchozím materiálu (korpusu či subkorpusu) poskytovaly totožné výsledky. Aby tedy byla zachována možnost opakovat jakýkoli korpusový výzkum, je i jakékoli promíchání pořadí konkordančních řádek replikovatelné se stejným výsledkem. |
| |
V případě funkce **Konkordance → Promíchat** si celý proces můžeme představit tak, že výchozí pořadí řádků v konkordanci bude změněno podle seznamu náhodných čísel. Promíchaná konkordance může být dále znovu a znovu znáhodňována podle stejného principu (pořadí jednotlivých řádek se mění, míra promíchanosti se však už nezvětšuje). Pokud se pokusíme tentýž postup zopakovat (stejný korpus, stejný dotaz a stejný počet aplikací funkce Promíchat), měli bychom dospět vždy ke stejným výsledkům. | V případě funkce **Konkordance → Promíchat** si celý proces můžeme představit tak, že výchozí pořadí řádků v konkordanci bude změněno podle seznamu náhodných čísel. Promíchaná konkordance může být dále znovu a znovu znáhodňována podle stejného principu (pořadí jednotlivých řádek se mění, míra promíchanosti se však už nezvětšuje). Pokud se pokusíme tentýž postup zopakovat (stejný korpus, stejný dotaz a stejný počet aplikací funkce Promíchat), měli bychom dospět vždy ke stejným výsledkům. |
==== Postup 1 – Promíchání konkordance ==== | ==== Postup 1 – Promíchání konkordance ==== |
| |
Pokud nám na vyhodnocení stačí prostředí aplikace KonText, můžeme vytvořit sérii náhodných vzorků tak, že aplikujeme funkci **Konkordance → Promíchat** a každá stránka konkordančního seznamu pak pro nás představuje samostatný vzorek (počet řádků na stránku lze nastavit v menu [[manualy:kontext:moznosti_zobrazeni#obecne_volby_zobrazeni_konkordance|Zobrazeni → Obecné volby zobrazení]], čímž získáme vzorky o požadovaném rozsahu). | Pokud nám na vyhodnocení stačí prostředí KonText, můžeme vytvořit sérii náhodných vzorků tak, že aplikujeme funkci **Konkordance → Promíchat** a každá stránka konkordančního seznamu pak pro nás představuje samostatný vzorek (počet řádků na stránku lze nastavit v menu [[manualy:kontext:moznosti_zobrazeni#obecne_volby_zobrazeni_konkordance|Zobrazeni → Obecné volby zobrazení]], čímž získáme vzorky o požadovaném rozsahu). |
| |
<WRAP round important 60%> | <WRAP round important 60%> |
Postup, při kterém analyzujeme pouze první stránku promíchané konkordance a následně znovu aplikujeme funkci Promíchat, není doporučeníhodný. Problém může spočívat v tom, že při tomto postupu není zaručeno, aby ve dvou po sobě následujících promícháních nebyly na první stránce konkordančního seznamu některé řádky stejné. Nebezpečí průniku mezi takto vytvořenými vzorky se zvětšuje, pokud je výchozí konkordance relativně málo rozsáhlá. | Postup, při kterém analyzujeme pouze první stránku promíchané konkordance a následně znovu aplikujeme funkci **Promíchat**, není doporučeníhodný. Problém může spočívat v tom, že při tomto postupu není zaručeno, aby ve dvou po sobě následujících promícháních nebyly na první stránce konkordančního seznamu některé řádky stejné. Nebezpečí průniku mezi takto vytvořenými vzorky se zvětšuje, pokud je výchozí konkordance relativně málo rozsáhlá. |
</WRAP> | </WRAP> |
| |