Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
manual:kwords [2014/11/25 17:31] – vytvořeno vaclavcvrcek | manualy:kwords [2015/10/07 14:31] – vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== KWords ====== | ====== KWords ====== | ||
- | Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem). | + | Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem). Jejím cílem je identifikovat tzv. [[pojmy: |
+ | |||
+ | {{ kurz: | ||
+ | |||
+ | KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez registrace všem uživatelům na adrese **[[http:// | ||
+ | |||
+ | Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http:// | ||
- | {{ : | ||
===== Princip fungování ===== | ===== Princip fungování ===== | ||
+ | Identifikace [[pojmy: | ||
+ | Výsledky analýzy jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova // | ||
+ | * pro češtinu | ||
+ | * [[cnk: | ||
+ | * [[cnk: | ||
+ | * diakon19 -- ad hoc vytvořený korpus z dostupných dat [[cnk: | ||
+ | * totalita -- korpus ideologických textů a oficiální publicistiky z období komunistické totality | ||
+ | * Oral -- korpusy [[cnk: | ||
+ | * pub -- publicistická část korpusů [[cnk: | ||
+ | * bel -- beletristická část korpusů [[cnk: | ||
+ | * odb -- odborná literatura z korpusů [[cnk: | ||
+ | * pro angličtinu | ||
+ | * BNC -- [[http:// | ||
+ | * COCA -- [[http:// | ||
+ | * InterCorp-EN v6 -- anglická část paralelního korpusu [[cnk: | ||
+ | * InterCorp-EN v6 BEL ORIG -- originální (tj. nepřeložená) anglicky psaná beletrie z korpusu [[cnk: | ||
+ | |||
+ | Text vložený uživatelem se nejprve [[pojmy: | ||
+ | |||
+ | $$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$ | ||
+ | |||
+ | kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazena, mohou dosahovat hodnot od -100 do 100, přičemž platí, že: | ||
+ | * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, | ||
+ | * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | ||
+ | * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, | ||
+ | |||
+ | Hodnoty DIN v rozmezí 75-100 je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu. | ||
+ | |||
+ | Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí. | ||
+ | |||
+ | Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. **multi-analýzy**. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN. | ||
===== Obrázky aplikace ===== | ===== Obrázky aplikace ===== | ||
+ | |||
+ | [{{: | ||
+ | [{{: | ||
+ | [{{: | ||
+ | [{{: | ||
+ | [{{: | ||
+ | [{{: | ||
Řádek 14: | Řádek 57: | ||
<WRAP round box 49%> | <WRAP round box 49%> | ||
- | [[manual:menu: | + | [[manualy:kontext: |
</ | </ |