AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
manualy:kwords [2015/12/10 22:20] – TC Václav Cvrčekmanualy:kwords [2016/09/09 10:04] – [Princip fungování] Václav Cvrček
Řádek 1: Řádek 1:
 ====== KWords ====== ====== KWords ======
- 
-Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. 
  
 {{ kurz:kwords-logo.png?nolink&200|}} {{ kurz:kwords-logo.png?nolink&200|}}
  
-KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez registrace všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**. +Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. 
 + 
 +KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:zaciname|registrace]] všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**. 
  
 Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov. Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov.
- 
  
 ===== Prominentní jednotky ===== ===== Prominentní jednotky =====
Řádek 23: Řádek 22:
 Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít: Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít:
   * pro češtinu   * pro češtinu
 +    * [[cnk:syn2015|SYN2015]]
     * [[cnk:syn2010|SYN2010]]     * [[cnk:syn2010|SYN2010]]
     * [[cnk:syn2005|SYN2005]]     * [[cnk:syn2005|SYN2005]]
Řádek 34: Řádek 34:
     * BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]]     * BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]]
     * COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]]     * COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]]
-    * InterCorp-EN v6 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]] +    * InterCorp-EN v8 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]]
-    * InterCorp-EN v6 BEL ORIG -- originální (tj. nepřeložená) anglicky psaná beletrie z korpusu [[cnk:intercorp|InterCorp]] +
 ==== Tématická koncentrace ==== ==== Tématická koncentrace ====
  
Řádek 52: Řádek 50:
   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))   * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.)))
  
-Hodnoty DIN v rozmezí 75-100 je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.+V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.
  
 Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí. Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí.