Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- manualy:kwords [2016/09/09 10:04] – [Princip fungování] vaclavcvrcek
+++ manualy:kwords [2024/01/16 10:37] (aktuální) – [Jak citovat KWords] aktualizovat pro druhou verzi vhorky
@@ Řádek 1: / Řádek 1: @@
 ====== KWords ======
-{{ kurz:kwords-logo.png?nolink&200|}}
+{{ :manualy:kwords_logo_v2.png?nolink&|}}
-Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.
+Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]] nebo [[pojmy:lemma|lemmata]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.
 KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:zaciname|registrace]] všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**.
-Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov.
+První verze aplikace KWords byla vyvinuta pro účely analýzy politických projevů v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. Druhá verze vznikla v rámci projektu [[https://threat-defuser.org|Threat-defuser]]. Tato verze podporuje více než 30 jazyků a umožňuje vedle analýzy klíčových slov i tzv. keymorph analýzu.((viz Fidler, M. - Cvrček, V.: [[https://doi.org/10.1515/cllt-2016-0073|Keymorph analysis, or how morphosyntax informs discourse]]. Corpus Linguistics and Linguistic Theory. 15/1, p. 39–70.))
 ===== Prominentní jednotky =====
@@ Řádek 18: / Řádek 18: @@
 ==== Klíčová slova ====
-Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. Klíčová slova jsou v analyzovaném textu vyznačena <fc #ff0000>červenou</fc> barvou.
+Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]].
+Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít jazykové větve korpusu [[cnk:intercorp|InterCorp]].
-Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:
-  * pro češtinu
-    * [[cnk:syn2015|SYN2015]]
-    * [[cnk:syn2010|SYN2010]]
-    * [[cnk:syn2005|SYN2005]]
-    * diakon19 -- ad hoc vytvořený korpus z dostupných dat [[cnk:struktura#diachronnikorpus|diachronní složky ČNK]] pokrývající 19. století
-    * totalita -- korpus ideologických textů a oficiální publicistiky z období komunistické totality
-    * Oral -- korpusy [[cnk:oral2006|Oral2006]] a [[cnk:oral2008|Oral2008]]
-    * pub -- publicistická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]
-    * bel -- beletristická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]
-    * odb -- odborná literatura z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]
-  * pro angličtinu
-    * BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]]
-    * COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]]
-    * InterCorp-EN v8 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]]
 ==== Tématická koncentrace ====
-Slova, která jsou v analyzovaném textu vyznačena <html><span style="background-color: yellow">žlutým</span></html> podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).
+Slova, která jsou v analyzovaném textu vyznačena žlutým podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).
 ===== Princip fungování =====
@@ Řádek 56: / Řádek 43: @@
 Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. **multi-analýzy**. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN.
 ===== Obrázky aplikace =====
+{{:manualy:kwords2.png?direct&400 |}}
+{{:manualy:kwords2_nastaveni.png?direct&400 |}}
+{{:manualy:kwords2_klicova_slova.png?direct&400|}}
+{{:manualy:kwords2_graf.png?direct&400 |}}
+{{:manualy:kwords2_distribuce.png?direct&400 |}}
+{{:manualy:kwords2_konkordance.png?direct&400 |}}
+{{:manualy:kwords2_links.png?direct&400|}}
+===== Obrázky aplikace (předchozí verze) =====
+[{{:kurz:kwords-vstup.png?direct&400 |Zadávání textu do KWords}}]
+[{{:kurz:kwords-vystup.png?direct&400 |Analyzovaný text spolu s vyznačenými klíčovými slovy}}]
+[{{:kurz:kwords-tab.png?direct&400|Seznam klíčových slov}}]
+[{{:kurz:kwords-distrib.png?direct&400 |Distribuce klíčových slov napříč analyzovaným textem}}]
+[{{:kurz:kwords-links.png?direct&400 |Vzájemné vazby mezi klíčovými slovy (keyword links)}}]
+[{{:kurz:kwords-comp.png?direct&400| Srovnání několika projevů -- multianalýza}}]
+===== Jak citovat KWords =====
-[{{:kurz:kwords-vstup.png?direct&300|Zadávání textu do KWords}}]
+<WRAP round tip 80%>
-[{{:kurz:kwords-vystup.png?direct&300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}]
+Horký, V. – Vondřička, P. – Cvrček, V.: KWords (ver. 2). FF UK. Praha 2023. Dostupný z WWW: <http://kwords.korpus.cz>.
-[{{:kurz:kwords-tab.png?direct&300|Seznam klíčových slov}}]
+</WRAP>
-[{{:kurz:kwords-distrib.png?direct&300|Distribuce klíčových slov napříč analyzovaným textem}}]
-[{{:kurz:kwords-links.png?direct&300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}]
-[{{:kurz:kwords-comp.png?direct&300|Srovnání několika projevů -- multianalýza}}]
+==== Předchozí verze ====
+<WRAP round tip 80%>
+Cvrček, V. – Vondřička, P.: KWords (ver. 1). FF UK. Praha 2013. Dostupný z WWW: <http://kwords.korpus.cz/legacy>.
+</WRAP>
 ==== Související odkazy ====

Historie: • heaps • collocations • syn2009pub • en • syn • frekvence • case-sensitive • alpha • obc • cep

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence