AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
manualy:kwords [2015/10/07 14:31] vaclavcvrcekmanualy:kwords [2015/12/10 22:20] – TC vaclavcvrcek
Řádek 10: Řádek 10:
  
  
-===== Princip fungování =====+===== Prominentní jednotky =====
  
-Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]].+Aplikace KWords identifikuje dva typy prominentních slov:
  
-Výsledky analýzy jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:+  - Klíčová slova ([[pojmy:keyword|keywords]]) 
 +  - Slova nesoucí tématickou koncentraci (TC) textu  
 + 
 +==== Klíčová slova ==== 
 + 
 +Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. Klíčová slova jsou v analyzovaném textu vyznačena <fc #ff0000>červenou</fc> barvou.  
 + 
 +Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:
   * pro češtinu   * pro češtinu
     * [[cnk:syn2010|SYN2010]]     * [[cnk:syn2010|SYN2010]]
Řádek 29: Řádek 36:
     * InterCorp-EN v6 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]]     * InterCorp-EN v6 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]]
     * InterCorp-EN v6 BEL ORIG -- originální (tj. nepřeložená) anglicky psaná beletrie z korpusu [[cnk:intercorp|InterCorp]]     * InterCorp-EN v6 BEL ORIG -- originální (tj. nepřeložená) anglicky psaná beletrie z korpusu [[cnk:intercorp|InterCorp]]
 +
 +==== Tématická koncentrace ====
 +
 +Slova, která jsou v analyzovaném textu vyznačena <html><span style="background-color: yellow">žlutým</span></html> podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).
 +
 +===== Princip fungování =====
  
 Text vložený uživatelem se nejprve [[pojmy:token|roztokenizuje]] způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky, spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:chi2|chi2]] či [[pojmy:loglikelihood|log-likelihood]]), je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: Text vložený uživatelem se nejprve [[pojmy:token|roztokenizuje]] způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky, spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:chi2|chi2]] či [[pojmy:loglikelihood|log-likelihood]]), je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: