Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
manualy:kontext:novy_dotaz [2023/03/14 15:47] – [Předchozí dotazy] jankrivan | manualy:kontext:novy_dotaz [2024/02/12 15:48] (aktuální) – jankocek |
---|
===== Konkordance ===== | ===== Konkordance ===== |
| |
[{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu }}] | [{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu}}] |
| |
Pomocí volby **Dotaz → Konkordance** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. | Pomocí volby **Dotaz → Konkordance** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. |
| |
Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku). | Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku). |
| |
| Vedle tlačítka **Hledat** je zároveň umístěna volba **Promíchat konkordanční řádky**. Tuto volbu je vhodné mít stále zapnutou, protože zobrazuje konkordance v náhodném pořadí, což je klíčové pro správnou a nezavádějící interpretaci výsledku. Podrobněji viz na stránce [[manualy:kontext:konkordance#promichat|Konkordance]]. |
| |
| |
==== Omezit hledání ==== | ==== Omezit hledání ==== |
| |
[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvořeném subkorpusu }}] | [{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvářeném subkorpusu }}] |
| |
Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]]. | Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]]. |
V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]]. | V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]]. |
| |
V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce. V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít. Lze se přitom vracet (volba **Krok zpět**), případně celý výběr stornovat (volba **Zrušit výběr**). Daný výběr je také možné natrvalo uložit (volba **Uložit jako subkorpus**) a vytvořit tak nový virtuální [[pojmy:subkorpus|subkorpus]]. | V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce. V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít. Lze se přitom vracet (volba **Krok zpět**), případně celý výběr stornovat (volba **Zrušit výběr**). Daný výběr je také možné uložit pro pozdější využití (volba **Uložit jako koncept subkorpus**) a vytvořit tak nový virtuální [[pojmy:subkorpus|subkorpus]]. Mimoto lze snadno získat seznam dokumentů v aktuálním výběru (volba **Uložit seznam dokumentů**), což může být praktické, např. chcete-li zjistit, která beletristická díla figurují v paralelním korpusu InterCorp pro ten který jazyk. |
| |
Pro podrobnější specifikaci je třeba použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu. | Pro podrobnější specifikaci je třeba použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu. |
Pokud je specifikace seznamu slov obecná a/nebo zvolený korpus rozsáhlý, může vyhodnocení této funkce trvat i několik minut. | Pokud je specifikace seznamu slov obecná a/nebo zvolený korpus rozsáhlý, může vyhodnocení této funkce trvat i několik minut. |
</WRAP> | </WRAP> |
| |
| ===== Analýza klíčových slov ===== |
| |
| [{{ :manualy:kontext:analyza_k_slov.png?direct&400| Seznam klíčových slovních tvarů v korpusu ORAL v1 v porovnání s referenčním korpusem SYN2020}}] |
| Rozhraní KonText dokáže vygenerovat soupis tzv. [[pojmy:keyword|klíčových slov]] (keywords), tedy takových tvarů či lemmat, která se ve vybraném (sub)korpusu objevují nápadně častěji než v (sub)korpusu referenčním, odrážejícím běžný jazykový úzus. (Analýzu klíčových slov //ve vlastních textech// umožňuje [[manualy:kwords|specializovaná aplikace KWords]].) |
| |
| Vedle korpusu, v němž chceme dané výrazy najít, musíme zadat také [[pojmy:referencni|referenční korpus]] (příp. též [[pojmy:subkorpus|subkorpus]], např. chceme-li nějaký korpus tvořený převážně publicistickými texty, tj. korpusy řady SYN, konfrontovat se subkorpusem beletristických textů: SYN2020-BEL). Dále určíme, podle kterého [[pojmy:atributy_pozicni|pozičního atributu]] se výrazy mají vyhledávat, podle které metriky mají být tříděny (v nabídce jsou tři: [[pojmy:asociacni_miry#log_likelihood|Log-likelihood]], [[pojmy:chi2|Chi-square]] a [[pojmy:din|Difference index]]), eventuálně zadáme i požadovanou minimální či maximální frekvenci. Hledané výrazy lze dále vyfiltrovat pomocí [[pojmy:regularni_vyrazy|regulárního výrazu]]; defaultně nastavený výraz ''.*'' zobrazí všechny výsledky (resp. prvních 1000 výskytů). |
| |
| Výsledný seznam klíčových slov ve formě tabulky je seřazen podle zvolené metriky, přičemž zbylé dvě se zobrazují taktéž, v dalších sloupcích následují hodnoty [[pojmy:frekvence|absolutní a relativní frekvence]] v obou korpusech. Soupis vyhledaných výrazů si lze zobrazit v obou korpusech v příslušné [[pojmy:konkordance|konkordanci]] přes pozitivní filtr (<fc #4682b4>p</fc> vpravo od hodnoty absolutní frekvence). |
| |
| |
| |
| |