AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
Následující verzeObě strany příští revize
manual:kwords [2014/11/25 17:31] – vytvořeno vaclavcvrcekmanualy:kwords [2015/10/06 12:45] – [Související odkazy] vaclavcvrcek
Řádek 1: Řádek 1:
 ====== KWords ====== ====== KWords ======
  
-Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem).+Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. 
 + 
 +{{ kurz:kwords-logo.png?nolink&200|}} 
 + 
 +KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez registrace všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**.  
 + 
 +Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov.
  
-{{ :manual:kwords-logo.png?nolink&100|}} 
  
 ===== Princip fungování ===== ===== Princip fungování =====
  
 +Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]].
  
 +Výsledky analýzy jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:
 +  * pro češtinu
 +    * [[cnk:syn2010|SYN2010]]
 +    * [[cnk:syn2005|SYN2005]]
 +    * diakon19 -- ad hoc vytvořený korpus z dostupných dat [[cnk:struktura#diachronnikorpus|diachronní složky ČNK]] pokrývající 19. století
 +    * totalita -- korpus ideologických textů a oficiální publicistiky z období komunistické totality
 +    * Oral -- korpusy [[cnk:oral2006|Oral2006]] a [[cnk:oral2008|Oral2008]]
 +    * pub -- publicistická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]
 +    * bel -- beletristická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]
 +    * odb -- odborná literatura z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]
 +  * pro angličtinu
 +    * BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]]
 +    * COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]]
 +    * InterCorp-EN v6 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]]
 +    * InterCorp-EN v6 BEL ORIG -- originální (tj. nepřeložená) anglicky psaná beletrie z korpusu [[cnk:intercorp|InterCorp]]
 +
 +Text vložený uživatelem se nejprve [[pojmy:token|roztokenizuje]] způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky, spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:chi2|chi2]] či [[pojmy:loglikelihood|log-likelihood]]), je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu:
 +
 +$$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$
 +
 +kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazena, mohou dosahovat hodnot od -100 do 100, přičemž platí, že:
 +  * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
 +  * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
 +  * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))
 +
 +Hodnoty DIN v rozmezí 75-100 je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.
 +
 +Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí.
 +
 +Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. **multi-analýzy**. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN.
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====
 +
 +[{{:kurz:kwords-vstup.png?direct&300|Zadávání textu do KWords}}]
 +[{{:kurz:kwords-vystup.png?direct&300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}]
 +[{{:kurz:kwords-tab.png?direct&300|Seznam klíčových slov}}]
 +[{{:kurz:kwords-distrib.png?direct&300|Distribuce klíčových slov napříč analyzovaným textem}}]
 +[{{:kurz:kwords-links.png?direct&300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}]
 +[{{:kurz:kwords-comp.png?direct&300|Srovnání několika projevů -- multianalýza}}]
  
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 49%> +<WRAP round box 50%> 
-[[manual:menu:index|Rozhraní KonText]] • [[manual:syd|SyD]] • [[manual:morfio|Morfio]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:nastroje|Korpusové nástroje]]+[[manualy:kontext:index|Rozhraní KonText]] • [[syd|SyD]] • [[morfio|Morfio]] • [[treq|Treq]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:nastroje|Korpusové nástroje]]
 </WRAP> </WRAP>