AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
manualy:kwords [2016/09/09 10:01] – [Klíčová slova] vaclavcvrcekmanualy:kwords [2023/04/06 12:49] – [Tématická koncentrace] vaclavcvrcek
Řádek 1: Řádek 1:
 ====== KWords ====== ====== KWords ======
  
-{{ kurz:kwords-logo.png?nolink&200|}}+{{ :manualy:k-words_logo.png?nolink&200|}}
  
 Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci.
Řádek 37: Řádek 37:
 ==== Tématická koncentrace ==== ==== Tématická koncentrace ====
  
-Slova, která jsou v analyzovaném textu vyznačena <html><span style="background-color: yellow">žlutým</span></html> podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).+Slova, která jsou v analyzovaném textu vyznačena žlutým podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013).
  
 ===== Princip fungování ===== ===== Princip fungování =====
Řádek 50: Řádek 50:
   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))
  
-Hodnoty DIN v rozmezí 75-100 je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.+V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.
  
 Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí. Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí.
Řádek 57: Řádek 57:
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====
  
-[{{:kurz:kwords-vstup.png?direct&300|Zadávání textu do KWords}}] +[{{:kurz:kwords-vstup.png?direct&400 |Zadávání textu do KWords}}] 
-[{{:kurz:kwords-vystup.png?direct&300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}] +[{{:kurz:kwords-vystup.png?direct&400 |Analyzovaný text spolu s vyznačenými klíčovými slovy}}]  
-[{{:kurz:kwords-tab.png?direct&300|Seznam klíčových slov}}] +[{{:kurz:kwords-tab.png?direct&400|Seznam klíčových slov}}] 
-[{{:kurz:kwords-distrib.png?direct&300|Distribuce klíčových slov napříč analyzovaným textem}}] +[{{:kurz:kwords-distrib.png?direct&400 |Distribuce klíčových slov napříč analyzovaným textem}}] 
-[{{:kurz:kwords-links.png?direct&300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}] +[{{:kurz:kwords-links.png?direct&400 |Vzájemné vazby mezi klíčovými slovy (keyword links)}}] 
-[{{:kurz:kwords-comp.png?direct&300|Srovnání několika projevů -- multianalýza}}]+[{{:kurz:kwords-comp.png?direct&400| Srovnání několika projevů -- multianalýza}}]
  
 +===== Jak citovat KWords =====
 +
 +<WRAP round tip 80%>
 +Cvrček, V. – Vondřička, P.: KWords. FF UK. Praha 2013. Dostupný z WWW: <http://kwords.korpus.cz>.
 +</WRAP>
  
 ==== Související odkazy ==== ==== Související odkazy ====