Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
manualy:kontext:novy_dotaz [2024/02/06 13:01] – [Analýza klíčových slov] michalskrabal | manualy:kontext:novy_dotaz [2024/02/12 15:48] (aktuální) – jankocek |
---|
===== Analýza klíčových slov ===== | ===== Analýza klíčových slov ===== |
| |
Rozhraní KonText dokáže vygenerovat soupis tzv. [[pojmy:keyword|klíčových slov]] (keywords), tedy takových tvarů či lemmat, která se ve vybraném korpusu objevují nápadně častěji než v korpusu referenčním, odrážejícím běžný jazykový úzus. (Analýzu klíčových slov ve vlastních textech umožňuje [[manualy:kwords|specializovaná aplikace KWords]].) | [{{ :manualy:kontext:analyza_k_slov.png?direct&400| Seznam klíčových slovních tvarů v korpusu ORAL v1 v porovnání s referenčním korpusem SYN2020}}] |
| Rozhraní KonText dokáže vygenerovat soupis tzv. [[pojmy:keyword|klíčových slov]] (keywords), tedy takových tvarů či lemmat, která se ve vybraném (sub)korpusu objevují nápadně častěji než v (sub)korpusu referenčním, odrážejícím běžný jazykový úzus. (Analýzu klíčových slov //ve vlastních textech// umožňuje [[manualy:kwords|specializovaná aplikace KWords]].) |
| |
Vedle korpusu, v němž chceme dané výrazy najít, musíme zadat také [[pojmy:referencni|referenční korpus]] (příp. též [[pojmy:subkorpus|subkorpus]], např. chceme-li nějaký korpus tvořený převážně publicistickými texty, tj. korpusy řady SYN, konfrontovat se subkorpusem beletristických textů: SYN2020-BEL). Dále určíme, podle kterého [[pojmy:atributy_pozicni|pozičního atributu]] se výrazy mají vyhledávat, podle které metriky mají být tříděny (v nabídce jsou tři: [[pojmy:asociacni_miry#log_likelihood|Log-likelihood]], [[pojmy:chi2|Chi-square]] a [[pojmy:din|Difference index]]), eventuálně zadáme i požadovanou minimální či maximální frekvenci. Hledané výrazy lze dále vyfiltrovat pomocí [[pojmy:regularni_vyrazy|regulárního výrazu]]; defaultně nastavený výraz ''.*'' zobrazí všechny výsledky (resp. prvních 1000 výskytů). | Vedle korpusu, v němž chceme dané výrazy najít, musíme zadat také [[pojmy:referencni|referenční korpus]] (příp. též [[pojmy:subkorpus|subkorpus]], např. chceme-li nějaký korpus tvořený převážně publicistickými texty, tj. korpusy řady SYN, konfrontovat se subkorpusem beletristických textů: SYN2020-BEL). Dále určíme, podle kterého [[pojmy:atributy_pozicni|pozičního atributu]] se výrazy mají vyhledávat, podle které metriky mají být tříděny (v nabídce jsou tři: [[pojmy:asociacni_miry#log_likelihood|Log-likelihood]], [[pojmy:chi2|Chi-square]] a [[pojmy:din|Difference index]]), eventuálně zadáme i požadovanou minimální či maximální frekvenci. Hledané výrazy lze dále vyfiltrovat pomocí [[pojmy:regularni_vyrazy|regulárního výrazu]]; defaultně nastavený výraz ''.*'' zobrazí všechny výsledky (resp. prvních 1000 výskytů). |
| |
Výsledný seznam klíčových slov (případně jiných atributů) ve formě tabulky je seřazen podle zvolené metriky, přičemž zbylé dvě se zobrazují taktéž, v dalších sloupcích následují hodnoty [[pojmy:frekvence|absolutní a relativní frekvence]] v obou korpusech. Z principu budou hodnoty v referenčním korpusu, alespoň na vrcholu seznamu, nulové či nule se blížící, kdežto hodnoty v korpusu zkoumaném relativně vysoké. Soupis vyhledaných výrazů si lze zobrazit v obou korpusech v příslušné [[pojmy:konkordance|konkordanci]] přes pozitivní filtr (<fc #4682b4>p</fc> vpravo od hodnoty absolutní frekvence). | Výsledný seznam klíčových slov ve formě tabulky je seřazen podle zvolené metriky, přičemž zbylé dvě se zobrazují taktéž, v dalších sloupcích následují hodnoty [[pojmy:frekvence|absolutní a relativní frekvence]] v obou korpusech. Soupis vyhledaných výrazů si lze zobrazit v obou korpusech v příslušné [[pojmy:konkordance|konkordanci]] přes pozitivní filtr (<fc #4682b4>p</fc> vpravo od hodnoty absolutní frekvence). |
| |
| |
| |
===== Předchozí dotazy ===== | ===== Předchozí dotazy ===== |
| |