Toto je starší verze dokumentu!

Obsah

KWords
- Princip fungování
- Obrázky aplikace
  - Související odkazy

KWords

Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem). Jejím cílem je identifikovat tzv. klíčová slova (keywords), což jsou slovní tvary, která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.

KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez registrace všem uživatelům na adrese kwords.korpus.cz.

Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s Brownovou univerzitou. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov.

Princip fungování

Identifikace klíčových slov probíhá na základě srovnání relativní frekvence každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: chi2 a log-likelihood.

Výsledky analýzy jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova socialistický, soudružky apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:

pro češtinu
- SYN2010
- SYN2005
- diakon19 – ad hoc vytvořený korpus z dostupných dat diachronní složky ČNK pokrývající 19. století
- totalita – korpus ideologických textů a oficiální publicistiky z období komunistické totality
- Oral – korpusy Oral2006 a Oral2008
- pub – publicistická část korpusů SYN2000, SYN2005 a SYN2010
- bel – beletristická část korpusů SYN2000, SYN2005 a SYN2010
- odb – odborná literatura z korpusů SYN2000, SYN2005 a SYN2010
pro angličtinu
- BNC – British National Corpus
- COCA – Corpus of Contemporary American English
- InterCorp-EN v6 – anglická část paralelního korpusu InterCorp
- InterCorp-EN v6 BEL ORIG – originální (tj. nepřeložená) anglicky psaná beletrie z korpusu InterCorp

Text vložený uživatelem se nejprve roztokenizuje způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky, spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu – chi2 či log-likelihood), je dále vypočítána hodnota DIN (difference index) vypovídající o relevanci daného rozdílu:

$$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$

kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazena, mohou dosahovat hodnot od -100 do 100, přičemž platí, že:

hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo¹⁾)

Hodnoty DIN v rozmezí 75-100 je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.

Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí.

Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. multi-analýzy. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN.

Obrázky aplikace

Zadávání textu do KWords

Analyzovaný text spolu s vyznačenými klíčovými slovy

Seznam klíčových slov

Distribuce klíčových slov napříč analyzovaným textem

Vzájemné vazby mezi klíčovými slovy (keyword links)

Srovnání několika projevů – multianalýza

Související odkazy

Rozhraní KonText • SyD • Morfio • Korpusový manažer • Korpusové nástroje

¹⁾

V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.

Historie: • intercorp • novy_dotaz • syd • syn • kwords

Obsah

KWords

Princip fungování

Obrázky aplikace

Související odkazy

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence