Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
manualy:kwords [2015/01/21 15:18]
Václav Cvrček (admin) Page moved from manual:kwords to kurz:kwords
manualy:kwords [2017/09/25 15:39]
Michal Škrabal
Řádek 1: Řádek 1:
 ====== KWords ====== ====== KWords ======
  
-Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem)Jejím cílem je identifikovat tzv. [[pojmy:​keyword|klíčová slova]] (keywords), což jsou [[pojmy:​word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.+{{ kurz:​kwords-logo.png?​nolink&​200|}}
  
-{{ :manual:​kwords-logo.png?​nolink&​200|}}+Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem)Jejím cílem je identifikovat tzv. [[pojmy:​keyword|klíčová slova]] (keywords), což jsou [[pojmy:​word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.
  
-KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez registrace všem uživatelům na adrese **[[http://​kwords.korpus.cz|kwords.korpus.cz]]**. ​+KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:​zaciname|registrace]] všem uživatelům na adrese **[[http://​kwords.korpus.cz|kwords.korpus.cz]]**. ​
  
 Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://​www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov. Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://​www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov.
  
 +===== Prominentní jednotky =====
  
-===== Princip fungování =====+Aplikace KWords identifikuje dva typy prominentních slov: 
 + 
 +  - Klíčová slova ([[pojmy:​keyword|keywords]]) 
 +  - Slova nesoucí tématickou koncentraci (TC) textu  
 + 
 +==== Klíčová slova ====
  
-Identifikace [[pojmy:​keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:​frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:​chi2|chi2]] a [[pojmy:​loglikelihood|log-likelihood]].+Identifikace [[pojmy:​keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:​frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:​chi2|chi2]] a [[pojmy:​loglikelihood|log-likelihood]]. Klíčová slova jsou v analyzovaném textu vyznačena <fc #​ff0000>​červenou</​fc>​ barvou
  
-Výsledky analýzy jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //​socialistický//,​ //​soudružky//​ apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:+Výsledky analýzy ​klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //​socialistický//,​ //​soudružky//​ apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:
   * pro češtinu   * pro češtinu
 +    * [[cnk:​syn2015|SYN2015]]
     * [[cnk:​syn2010|SYN2010]]     * [[cnk:​syn2010|SYN2010]]
     * [[cnk:​syn2005|SYN2005]]     * [[cnk:​syn2005|SYN2005]]
Řádek 27: Řádek 34:
     * BNC -- [[http://​www.natcorp.ox.ac.uk|British National Corpus]]     * BNC -- [[http://​www.natcorp.ox.ac.uk|British National Corpus]]
     * COCA -- [[http://​www.wordfrequency.info/​100k.asp|Corpus of Contemporary American English]]     * COCA -- [[http://​www.wordfrequency.info/​100k.asp|Corpus of Contemporary American English]]
-    * InterCorp-EN ​v6 -- anglická část paralelního korpusu [[cnk:​intercorp|InterCorp]] +    * InterCorp-EN ​v8 -- anglická část paralelního korpusu [[cnk:​intercorp|InterCorp]] 
-    * InterCorp-EN v6 BEL ORIG -- originální ​(tj. nepřeloženáanglicky psaná beletrie z korpusu ​[[cnk:intercorp|InterCorp]]+==== Tématická koncentrace ==== 
 + 
 +Slova, která jsou v analyzovaném textu vyznačena <​html><​span style="​background-color: yellow">​žlutým</​span></​html>​ podbarvením,​ jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:​zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku ​[[http://​www.cechradek.cz/​publ/​2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013). 
 + 
 +===== Princip fungování =====
  
 Text vložený uživatelem se nejprve [[pojmy:​token|roztokenizuje]] způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky,​ spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:​chi2|chi2]] či [[pojmy:​loglikelihood|log-likelihood]]),​ je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: Text vložený uživatelem se nejprve [[pojmy:​token|roztokenizuje]] způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky,​ spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:​chi2|chi2]] či [[pojmy:​loglikelihood|log-likelihood]]),​ je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu:
Řádek 39: Řádek 50:
   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní,​ která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní,​ která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))
  
-Hodnoty DIN v rozmezí 75-100 ​je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.+V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:​word|slovních tvarů]] ​je možné považovat ​hodnoty DIN v rozmezí 75-100 ​za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.
  
 Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí. Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí.
Řádek 46: Řádek 57:
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====
  
-[{{:manual:​kwords-vstup.png?​direct&​300|Zadávání textu do KWords}}] +[{{:kurz:​kwords-vstup.png?​direct&​300|Zadávání textu do KWords}}] 
-[{{:manual:​kwords-vystup.png?​direct&​300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}] +[{{:kurz:​kwords-vystup.png?​direct&​300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}] 
-[{{:manual:​kwords-tab.png?​direct&​300|Seznam klíčových slov}}] +[{{:kurz:​kwords-tab.png?​direct&​300|Seznam klíčových slov}}] 
-[{{:manual:​kwords-distrib.png?​direct&​300|Distribuce klíčových slov napříč analyzovaným textem}}] +[{{:kurz:​kwords-distrib.png?​direct&​300|Distribuce klíčových slov napříč analyzovaným textem}}] 
-[{{:manual:​kwords-links.png?​direct&​300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}] +[{{:kurz:​kwords-links.png?​direct&​300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}] 
-[{{:manual:​kwords-comp.png?​direct&​300|Srovnání několika projevů -- multianalýza}}]+[{{:kurz:​kwords-comp.png?​direct&​300|Srovnání několika projevů -- multianalýza}}] 
 + 
 +===== Jak citovat KWords =====
  
 +<WRAP round tip 80%>
 +Cvrček, V. – Vondřička,​ P.: KWords. FF UK. Praha 2013. Dostupný z WWW: <​http://​kwords.korpus.cz>​.
 +</​WRAP>​
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[manual:menu:​index|Rozhraní KonText]] • [[manual:syd|SyD]] • [[manual:morfio|Morfio]] • [[pojmy:​korpusovy_manazer|Korpusový manažer]] • [[pojmy:​nastroje|Korpusové nástroje]]+[[manualy:kontext:​index|Rozhraní KonText]] • [[syd|SyD]] • [[morfio|Morfio]] • [[treq|Treq]] • [[pojmy:​korpusovy_manazer|Korpusový manažer]] • [[pojmy:​nastroje|Korpusové nástroje]]
 </​WRAP>​ </​WRAP>​