Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
manualy:kontext:filtr [2015/01/21 16:02] – upraveno mimo DokuWiki 127.0.0.1 | manualy:kontext:filtr [2023/08/30 12:27] – [První nálezy ve větách] jankrivan |
---|
====== Menu: Filtr ====== | ====== Menu: Filtr ====== |
| |
Filtrování výsledku hledání ([[pojmy:konkordance|konkordance]]) slouží k zpřesnění původně položeného dotazu. Obecně je možné říct, že jakýkoli filtr je možné nahradit složitějším [[pojmy:dotazovaci_jazyk|CQL]] dotazem, nicméně v některých typech výzkumu je lepší postupovat od obecnějšího zadání postupným specifikováním výsledku, kterého chceme dosáhnout. | Filtrování výsledku hledání ([[pojmy:konkordance|konkordance]]) slouží k zpřesnění původně položeného dotazu dodatečnou podmínkou. Obecně je možné říct, že jakýkoli filtr je možné nahradit složitějším [[pojmy:dotazovaci_jazyk|CQL]] dotazem, nicméně v některých typech výzkumu je lepší postupovat od obecnějšího zadání postupným specifikováním výsledku, kterého chceme dosáhnout. Výhodou takové cesty je možnost průběžné kontroly toho, jaké výsledky se v konkordanci objevují. |
| |
[{{ :manualy:kontext:filtr.png?direct&300|Formulář filtrování FIXME}}] | Základními typy jsou **filtry pozitivní a negativní** specifikované dalším filtrujícím dotazem. Ve zvláštních případech se vyplatí použít připravený filtr **odstranění vnořených shod** a vyfiltrování **prvních výskytů v dokumentech nebo ve větách**. |
| |
V [[manualy:kontext:index|rozhraní KonText]] máte na výběr ze dvou typů filtrování: | ===== Pozitivní filtr a negativní filtr ===== |
- P-filtr (pozitivní) | |
- N-filtr (negativní) | |
| |
Zatímco pozitivní filtr slouží k výběru podmnožiny konkordancí z výchozího seznamu, negativní filtr umožňuje některé nehodící se konkordance ze seznamu vyřadit. V případě P-filtru tak uživatel specifikuje podmínku, jejíž splnění podmiňuje ponechání řádku v konkordančním seznamu. N-filtr na základě uživatelovy specifikace identifikuje ty konkordance, které je třeba z výsledku vyřadit (to, co odpovídá podmínce, je vyloučeno). | [{{ :manualy:kontext:filtr.png?direct&300|Formulář filtrování }}] |
| |
V rámci formuláře pro filtrování je třeba nejprve upřesnit typ filtru (pozitivní/negativní). Další nastavení specifikují podmínku: rozsah kontextu, v němž se filtrované slovo bude hledat, [[kurz:prvni_dotaz#typy_dotazu|typ dotazu]], který bude pro hledání užit, a jeho zadání. | V rozhraní KonText máte na výběr ze dvou základních typů filtrování. Vyvolávají se přes položku **Filtr > Pozitivní...** a **Filtr > Negativní...** anebo stisknutím klávesy ''F'': |
| - P-filtr (pozitivní filtr) |
| - N-filtr (negativní filtr) |
| |
Volba **Vybraný token** (s hodnotami **první**, **poslední**) má smysl pouze při pozitivním filtrování. Specifikuje, které z kontextových slov má být označeno jako [[manualy:kontext:konkordance#kwic_kookurence|kookurence]] ke KWICu v případě, že se v jeho okolí nachází takových slov víc. Představme si, že při hledání [[pojmy:lemma|lemmatu]] //klidný// najdeme i větu: ''Stal se nervózním a <fc #FF0000>neklidným</fc> a jeho oči těkaly''. Budeme-li chtít vyfiltrovat pouze ty konkordance, kde se v bezprostředním okolí lemmatu //klidný// objevuje spojka //a//, budeme mít v tomto případě dvě možnosti: buď jako kookurenci označíme předcházející spojku, nebo spojku následující za [[pojmy:kwic|KWICem]]. Pokud v nastavení filtru zvolíme **první** vybraný token, bude označen v hledaném kontextovém rozsahu ten nejvíce nalevo, v případě volby **poslední** bude označen ten nejvíce napravo. | Zatímco pozitivní filtr slouží k výběru podmnožiny konkordancí z výchozího seznamu, negativní filtr umožňuje některé nehodící se konkordance ze seznamu vyřadit. V případě P-filtru tak uživatel specifikuje podmínku, jejíž splnění podmiňuje ponechání řádku v konkordančním seznamu. N-filtr na základě uživatelovy specifikace naopak identifikuje ty konkordance, které je třeba z výsledku vyřadit (to, co odpovídá podmínce, je vyloučeno). |
| |
[{{:manualy:kontext:filtr_konkordance.png?direct&300 |Konkordance lemmatu //klidný// po použití pozitivního filtru hledajícího bezprostředně sousedící lemma //a//. FIXME}}] | ==== Nastavení filtru ==== |
| |
| V rámci formuláře je třeba vybrat nastavení specifikující podmínku (ta je ve své podstatě dalším dotazem aplikovaným na výsledky původního hledání), zejména formulovat **samotný filtrující dotaz** (ať už jednoduchý, nebo pokročilý) a následně ve zvláštním oddílu formuláře upravit upřesňující parametry: |
| |
| * **Rozsah hledání**, tj. rozsah kontextu, v němž se filtrovaný jev bude hledat; implicitně je nastaven na hledání v okolí pěti tokenů nalevo i napravo od [[pojmy:kwic|KWICu]] (-5 5) včetně KWIC. Pokud chceme filtr omezit například jen na KWIC, změníme rozsah na nulový (0 0) včetně KWIC. |
| |
| * Další parametry jsou stejné jako u úvodního dotazu: **výchozí [[pojmy:atributy_pozicni|poziční atribut]]**, který je při filtrování implicitně nastaven jako ''word''; v režimu jednoduchého dotazu je to dále zohlednění **velikosti písmen** (case-sensitivity) a také povolení **použití [[pojmy:regularni_vyrazy|regulárních výrazů]]**. |
| |
| * Volba **Zvýraznění shody** (s hodnotami **první shoda**, **poslední shoda**) má smysl pouze při pozitivním filtrování: |
| |
| [{{ :manualy:kontext:filtr_konkordance.png?direct&300|Výsledná konkordance lemmatu //klidný// s pozitivním filtrem hledajícím //a// v bezprostředním sousedství. }}] |
| |
| === Zvýraznění shody === |
| |
| Nastavení specifikuje, které z kontextových slov má být označeno jako kookurence ke KWICu v případě, že se v jeho okolí nachází takových slov víc. Představme si, že při hledání [[pojmy:lemma|lemmatu]] //klidný// najdeme i větu: |
| |
| ''Stal se nervózním a <fc #FF0000>neklidným</fc> a jeho oči těkaly''. |
| |
| Budeme-li chtít vyfiltrovat pouze ty konkordance, kde se v bezprostředním okolí lemmatu //klidný// objevuje spojka //a//, budeme mít v tomto případě dvě možnosti: buď jako kookurenci označíme předcházející spojku, nebo spojku následující za KWICem. Pokud v nastavení filtru zvolíme **první shoda** vybraný token, bude označen v hledaném kontextovém rozsahu ten nejvíce nalevo, v případě volby **poslední shoda** bude označen ten nejvíce napravo. |
| |
| ==== Vyhodnocení filtru ==== |
| |
| Vyhodnocení filtru automaticky přesměruje uživatele na stránku s aktualizovanou konkordancí. V případě negativního filtru jsou specifikované případy z konkordance vymazány (čímž se sníží počet konkordančních řádků). V případě filtru pozitivního jsou ve výsledné konkordanci pouze vyhovující řádky, celková frekvence je rovněž adekvátně snížena, kookurence v kontextu (jsou-li nějaké) jsou vyznačeny červenou barvou. |
| |
| ===== Odstranění vnořených shod ===== |
| |
| Volbu **Filtr > Odstranit vnořené shody** se vyplatí použít v případě, kdy výsledkům dotazu odpovídají různě dlouhé řetězce (struktury) KWICů, z nichž některé jsou do sebe vnořeny. V takovém případě zůstane po odstranění vnořených shod zobrazena pouze struktura vnější, tj. nejdelší možný řetězec KWICů. |
| |
| Například budeme chtít vyhledat doklady citoslovečného výrazu //hip hurá//, v němž se první slovo může libovolně opakovat. Zvolíme pokročilý dotaz ''%%[lc="hip"]+ [lc="hurá"]%%'', v němž se nerozlišuje velikost písmen. Výsledkem budou jak konkordance s jedním výskytem slova //hip//, tak s jeho více výskyty. V případě více výskytů slova //hip// se však mezi výsledky zároveň objeví i konkordance s jeho nižším počtem výskytů: |
| |
| ''Položil jsem sluchátko a zařval jsem <fc #FF0000>Hip hip hurá</fc> !''\\ |
| ''Položil jsem sluchátko a zařval jsem Hip <fc #FF0000>hip hurá</fc> !'' |
| |
| Po aplikaci filtru zůstane zobrazena pouze konkordance s vyznačeným KWICem ''<fc #FF0000>Hip hip hurá</fc>'', tj. vnější struktura s opakováním řetězce //hip//. |
| |
| Odstranění vnořených shod je důležité zvláště tehdy, když potřebujeme s výsledky dále statisticky pracovat. |
| |
| ===== První nálezy v dokumentech a ve větách ===== |
| |
| Volby **Filtr > První nálezy v dokumentech** a **Filtr > První nálezy ve větách** mohou mít částečně podobné využití jako odstranění vnořených shod, ale princip je odlišný. |
| |
| Tyto filtry použijeme v případě, kdy se uvnitř určitého dokumentu nebo věty vyskytuje více výsledků pro zadaný dotaz, ale nás v nich zajímá pouze jeden (vždy se zobrazí ten první) doklad. Výsledky přitom oproti vnořeným shodám nemusejí být do sebe vnořené. |
| |
| ==== První nálezy v dokumentech === |
| |
| Volbu první nálezy v dokumentech můžeme například použít v případě, kdy se ve výsledcích objevují konkordance převážně z jednoho nebo jen z několika zdrojů, ale nás zajímají i další užití tohoto slova, která mezi převažujícími konkordancemi zanikají. |
| |
| Například lemma **hnojník** má v SYN2020 celkem 111 dokladů, ale celých 79 dokladů je obsaženo jen v jednom dokumentu (Encyklopedie léčivých hub). Slovo //hnojník// přitom představuje homonymum, které vedle houby může znamenat i skladiště hnoje nebo brouka. Tyto doklady na stránce konkordancí zanikají. Při zobrazení jen prvních nálezů v dokumentech doklady na ostatní významy objevíme snáz. Tato funkce tedy může sloužit jako nástroj pro vytváření zvláštního systematického vzorku (oproti vytváření [[manualy:kontext:konkordance#vzorek|vzorku náhodného]]). |
| |
| ==== První nálezy ve větách === |
| |
| Filtrování pomocí prvních nálezů ve větách použijeme v případě, kdy se výsledky hledání opakují uvnitř jedné věty, ale nás opět zajímá pouze jeden (vždy se opět zobrazí ten první) doklad. |
| |
| Může jít například o hledání víceslovných spojení pomocí atributu [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_lemma]], který je k dispozici ve verzovaných korpusech SYN, např. v syn_v11. |
| |
| Zadáme-li dotaz ''%%[col_lemma="bát_se_jako_čert_kříže"]%%'', dostaneme mj. těchto pět výsledků: |
| |
| ''Jak ji znám , <fc #FF0000>bojí</fc> se hospod jako čert kříže !''\\ |
| ''Jak ji znám , bojí <fc #FF0000>se</fc> hospod jako čert kříže !''\\ |
| ''Jak ji znám , bojí se hospod <fc #FF0000>jako</fc> čert kříže !''\\ |
| ''Jak ji znám , bojí se hospod jako <fc #FF0000>čert</fc> kříže !''\\ |
| ''Jak ji znám , bojí se hospod jako čert <fc #FF0000>kříže</fc> !''\\ |
| |
| Totožnou hodnotou atributu col_lemma jsou totiž postupně označeny všechny části daného víceslovného spojení. Po použití filtru se pak už zobrazí jen první doklad, tedy jedna konkordance pro jedno víceslovné spojení (frazém //bát se jako čert kříže//), pouze s prvním slovem zvýrazněným jako KWIC. |
| |
| Jak bylo uvedeno na začátku, k podobným výsledkům se lze často dostat různými způsoby. Každá automaticky anotovaná kolokace má zároveň jednoho ze svých členů označeného pomocí dvoumístného pozičního atributu ''col_type'' s písmenem H na druhé pozici. Na výše uvedené výsledky bychom tedy mohli uplatnit pozitivní filtr na pozici KWIC s hodnotou ''%%[col_type=".H"]%%'' nebo bychom úvodní dotaz také mohli přímo formulovat ''%%[col_lemma="bát_se_jako_čert_kříže" & col_type=".H"]%%'' V takovém případě se zobrazí pouze doklad s vyznačeným tvarem //kříže//, protože jeho hodnota atributu col_type je rovna ''PH''. |
| |
Vyhodnocení filtru automaticky přesměruje uživatele na stránku s aktualizovanou konkordancí. V případě negativního filtru jsou specifikované případy z konkordance vymazány (sníží se také počet konkordančních řádků). V případě filtru pozitivního jsou ve výsledné konkordanci pouze vyhovující řádky, celková frekvence je rovněž adekvátně snížena, kookurence v kontextu (jsou-li nějaké) jsou vyznačeny červenou barvou. | |
| |
---- | ---- |
| |
| |
<WRAP center round box 49%> | <WRAP center round box 48%> |
**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Nový dotaz]] • [[manualy:kontext:subkorpus|Subkorpus]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[filtr|Filtr]] • [[manualy:kontext:frekvencni_distribuce|Frekvenční distribuce]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[manualy:kontext:moznosti_zobrazeni|Možnosti zobrazení]] • [[manualy:kontext:napoveda|Nápověda]] | **[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:korpusy|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvence|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]] |
</WRAP> | </WRAP> |
| |