AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manualy:kwords [2016/09/09 10:04] – [Princip fungování] vaclavcvrcekmanualy:kwords [2024/01/16 10:37] (aktuální) – [Jak citovat KWords] aktualizovat pro druhou verzi vhorky
Řádek 1: Řádek 1:
 ====== KWords ====== ====== KWords ======
  
-{{ kurz:kwords-logo.png?nolink&200|}}+{{ :manualy:kwords_logo_v2.png?nolink&|}}
  
-Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.+Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]] nebo [[pojmy:lemma|lemmata]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.
  
 KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:zaciname|registrace]] všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**.  KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:zaciname|registrace]] všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**. 
  
-Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov.+První verze aplikace KWords byla vyvinuta pro účely analýzy politických projevů v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. Druhá verze vznikla v rámci projektu [[https://threat-defuser.org|Threat-defuser]]. Tato verze podporuje více než 30 jazyků a umožňuje vedle analýzy klíčových slov i tzv. keymorph analýzu.((viz Fidler, M. - Cvrček, V.: [[https://doi.org/10.1515/cllt-2016-0073|Keymorph analysis, or how morphosyntax informs discourse]]. Corpus Linguistics and Linguistic Theory. 15/1, p. 39–70.))
  
 ===== Prominentní jednotky ===== ===== Prominentní jednotky =====
Řádek 18: Řádek 18:
 ==== Klíčová slova ==== ==== Klíčová slova ====
  
-Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. Klíčová slova jsou v analyzovaném textu vyznačena <fc #ff0000>červenou</fc> barvou+Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. 
 + 
 +Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít jazykové větve korpusu [[cnk:intercorp|InterCorp]].
  
-Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít: 
-  * pro češtinu 
-    * [[cnk:syn2015|SYN2015]] 
-    * [[cnk:syn2010|SYN2010]] 
-    * [[cnk:syn2005|SYN2005]] 
-    * diakon19 -- ad hoc vytvořený korpus z dostupných dat [[cnk:struktura#diachronnikorpus|diachronní složky ČNK]] pokrývající 19. století 
-    * totalita -- korpus ideologických textů a oficiální publicistiky z období komunistické totality 
-    * Oral -- korpusy [[cnk:oral2006|Oral2006]] a [[cnk:oral2008|Oral2008]] 
-    * pub -- publicistická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] 
-    * bel -- beletristická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] 
-    * odb -- odborná literatura z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] 
-  * pro angličtinu 
-    * BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]] 
-    * COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]] 
-    * InterCorp-EN v8 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]] 
 ==== Tématická koncentrace ==== ==== Tématická koncentrace ====
  
-Slova, která jsou v analyzovaném textu vyznačena <html><span style="background-color: yellow">žlutým</span></html> podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).+Slova, která jsou v analyzovaném textu vyznačena žlutým podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).
  
 ===== Princip fungování ===== ===== Princip fungování =====
Řádek 56: Řádek 43:
 Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. **multi-analýzy**. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN. Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. **multi-analýzy**. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN.
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====
 +{{:manualy:kwords2.png?direct&400 |}}
 +{{:manualy:kwords2_nastaveni.png?direct&400 |}}
 +{{:manualy:kwords2_klicova_slova.png?direct&400|}}
 +{{:manualy:kwords2_graf.png?direct&400 |}}
 +{{:manualy:kwords2_distribuce.png?direct&400 |}}
 +{{:manualy:kwords2_konkordance.png?direct&400 |}}
 +{{:manualy:kwords2_links.png?direct&400|}}
 +
 +
 +===== Obrázky aplikace (předchozí verze) =====
 +
 +[{{:kurz:kwords-vstup.png?direct&400 |Zadávání textu do KWords}}]
 +[{{:kurz:kwords-vystup.png?direct&400 |Analyzovaný text spolu s vyznačenými klíčovými slovy}}] 
 +[{{:kurz:kwords-tab.png?direct&400|Seznam klíčových slov}}]
 +[{{:kurz:kwords-distrib.png?direct&400 |Distribuce klíčových slov napříč analyzovaným textem}}]
 +[{{:kurz:kwords-links.png?direct&400 |Vzájemné vazby mezi klíčovými slovy (keyword links)}}]
 +[{{:kurz:kwords-comp.png?direct&400| Srovnání několika projevů -- multianalýza}}]
 +
 +===== Jak citovat KWords =====
  
-[{{:kurz:kwords-vstup.png?direct&300|Zadávání textu do KWords}}] +<WRAP round tip 80%> 
-[{{:kurz:kwords-vystup.png?direct&300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}] +Horký, V– Vondřička, P– Cvrček, V.: KWords (ver2). FF UK. Praha 2023. Dostupný z WWW<http://kwords.korpus.cz>
-[{{:kurz:kwords-tab.png?direct&300|Seznam klíčových slov}}] +</WRAP>
-[{{:kurz:kwords-distrib.png?direct&300|Distribuce klíčových slov napříč analyzovaným textem}}] +
-[{{:kurz:kwords-links.png?direct&300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}] +
-[{{:kurz:kwords-comp.png?direct&300|Srovnání několika projevů -- multianalýza}}]+
  
 +==== Předchozí verze ====
  
 +<WRAP round tip 80%>
 +Cvrček, V. – Vondřička, P.: KWords (ver. 1). FF UK. Praha 2013. Dostupný z WWW: <http://kwords.korpus.cz/legacy>.
 +</WRAP>
 ==== Související odkazy ==== ==== Související odkazy ====