AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
manualy:kwords [2016/09/09 10:01] – [Klíčová slova] vaclavcvrcekmanualy:kwords [2023/11/08 12:04] jankocek
Řádek 1: Řádek 1:
 ====== KWords ====== ====== KWords ======
  
-{{ kurz:kwords-logo.png?nolink&200|}}+{{ :manualy:kwords_logo_v2.png?nolink&|}}
  
 Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.
Řádek 37: Řádek 37:
 ==== Tématická koncentrace ==== ==== Tématická koncentrace ====
  
-Slova, která jsou v analyzovaném textu vyznačena <html><span style="background-color: yellow">žlutým</span></html> podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).+Slova, která jsou v analyzovaném textu vyznačena žlutým podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).
  
 ===== Princip fungování ===== ===== Princip fungování =====
Řádek 50: Řádek 50:
   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))
  
-Hodnoty DIN v rozmezí 75-100 je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.+V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.
  
 Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí. Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí.
Řádek 56: Řádek 56:
 Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. **multi-analýzy**. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN. Aplikace KWords byla navržena také pro vytváření analýz časových (nebo jiných) sérií dat. Pokud uživatel vloží na vstupu do aplikace víc textů (maximální množství je 20), aktivuje režim tzv. **multi-analýzy**. V něm jsou analyzovány všechny vložené texty a výsledky z jednotlivých analýz porovnány na základě DIN.
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====
 +{{:manualy:kwords2.png?direct&400 |}}
 +{{:manualy:kwords2_nastaveni.png?direct&400 |}}
 +{{:manualy:kwords2_klicova_slova.png?direct&400|}}
 +{{:manualy:kwords2_graf.png?direct&400 |}}
 +{{:manualy:kwords2_distribuce.png?direct&400 |}}
 +{{:manualy:kwords2_konkordance.png?direct&400 |}}
 +{{:manualy:kwords2_links.png?direct&400|}}
  
-[{{:kurz:kwords-vstup.png?direct&300|Zadávání textu do KWords}}] 
-[{{:kurz:kwords-vystup.png?direct&300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}] 
-[{{:kurz:kwords-tab.png?direct&300|Seznam klíčových slov}}] 
-[{{:kurz:kwords-distrib.png?direct&300|Distribuce klíčových slov napříč analyzovaným textem}}] 
-[{{:kurz:kwords-links.png?direct&300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}] 
-[{{:kurz:kwords-comp.png?direct&300|Srovnání několika projevů -- multianalýza}}] 
  
 +===== Obrázky aplikace (předchozí verze) =====
 +
 +[{{:kurz:kwords-vstup.png?direct&400 |Zadávání textu do KWords}}]
 +[{{:kurz:kwords-vystup.png?direct&400 |Analyzovaný text spolu s vyznačenými klíčovými slovy}}] 
 +[{{:kurz:kwords-tab.png?direct&400|Seznam klíčových slov}}]
 +[{{:kurz:kwords-distrib.png?direct&400 |Distribuce klíčových slov napříč analyzovaným textem}}]
 +[{{:kurz:kwords-links.png?direct&400 |Vzájemné vazby mezi klíčovými slovy (keyword links)}}]
 +[{{:kurz:kwords-comp.png?direct&400| Srovnání několika projevů -- multianalýza}}]
 +
 +===== Jak citovat KWords =====
 +
 +<WRAP round tip 80%>
 +Cvrček, V. – Vondřička, P.: KWords. FF UK. Praha 2013. Dostupný z WWW: <http://kwords.korpus.cz>.
 +</WRAP>
  
 ==== Související odkazy ==== ==== Související odkazy ====