Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
manual:kwords [2014/12/03 11:29] – [Princip fungování] vaclavcvrcek | manualy:kwords [2021/02/09 16:09] – jankocek |
---|
====== KWords ====== | ====== KWords ====== |
| |
Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ (referenčním korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. | {{ kurz:kwords-logo.png?nolink&200|}} |
| |
{{ :manual:kwords-logo.png?nolink&200|}} | Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. |
| |
KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez registrace všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**. | KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:zaciname|registrace]] všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**. |
| |
Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov. | Aplikace KWords byla původně vyvinuta pro účely analýzy politických projevů a je dále rozvíjena v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. V současnosti je implementována pro analýzu českých a anglických textů s rozsahem do cca 20 tisíc slov. |
| |
| ===== Prominentní jednotky ===== |
| |
===== Princip fungování ===== | Aplikace KWords identifikuje dva typy prominentních slov: |
| |
| - Klíčová slova ([[pojmy:keyword|keywords]]) |
| - Slova nesoucí tématickou koncentraci (TC) textu |
| |
| ==== Klíčová slova ==== |
| |
Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. | Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. Klíčová slova jsou v analyzovaném textu vyznačena <fc #ff0000>červenou</fc> barvou. |
| |
Výsledky analýzy jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít: | Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít: |
* pro češtinu | * pro češtinu |
| * [[cnk:syn2015|SYN2015]] |
* [[cnk:syn2010|SYN2010]] | * [[cnk:syn2010|SYN2010]] |
* [[cnk:syn2005|SYN2005]] | * [[cnk:syn2005|SYN2005]] |
* BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]] | * BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]] |
* COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]] | * COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]] |
* InterCorp-EN v6 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]] | * InterCorp-EN v8 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]] |
* InterCorp-EN v6 BEL ORIG -- originální (tj. nepřeložená) anglicky psaná beletrie z korpusu [[cnk:intercorp|InterCorp]] | ==== Tématická koncentrace ==== |
| |
| Slova, která jsou v analyzovaném textu vyznačena <html><span style="background-color: yellow">žlutým</span></html> podbarvením, jsou ta, která nesou tématickou koncentraci (TC words). K jejich identifikaci se nevyužívá srovnání s referenčním korpusem, ale pouze jejich umístění ve frekvenční distribuci jednotek analyzovaného textu: seřadíme-li všechna slova v textu od nejfrekventovanějšího po slova, která se objevují pouze jednou, dostaneme tzv. [[pojmy:zipf|Zipfovskou]] distribuci. Na této distribuci hledáme tzv. bod //h//, pro nějž platí, že rank = frekvence (např. 32. nejfrekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32) označíme za tématickou koncentraci. Podrobnosti a konkrétní aplikaci tohoto přístupu na literární texty je možné najít např. v článku [[http://www.cechradek.cz/publ/2013_Davidova_Cech_Tematicka_koncentrace_Jehlicka_NR.pdf|R. Čecha]] (2013). |
| |
| ===== Princip fungování ===== |
| |
Text vložený uživatelem se nejprve [[pojmy:token|roztokenizuje]] způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky, spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:chi2|chi2]] či [[pojmy:loglikelihood|log-likelihood]]), je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: | Text vložený uživatelem se nejprve [[pojmy:token|roztokenizuje]] způsobem, který je identický s tokenizací korpusových dat. V druhém kroku je spočtena frekvence všech slov v analyzovaném textu (s výjimkou těch, které uživatel z analýzy vyloučí prostřednictvím tzv. stop-listu, např. předložky, spojky, čísla apod.). Následuje porovnání frekvencí v textu a v referenčním korpusu. Pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:chi2|chi2]] či [[pojmy:loglikelihood|log-likelihood]]), je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: |
* hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.))) | * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, která je vždy hodna speciálního pozoru; slovo se v referenčním korpusu nemusí vyksytovat např. proto, že jde o velmi řídký jev, zvlaštní proprium, citátové slovo z jiného jazyka apod.))) |
| |
Hodnoty DIN v rozmezí 75-100 je možné považovat za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu. | V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu. |
| |
Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí. | Aplikace KWords dále nabízí celou řadu doplňujících informací pro práci s klíčovými slovy. Vedle seznamu klíčových slov spolu s jejich hodnotami je to především graf disperze dat (ukazující postavení jednotlivých klíčových slov v textu), graf tzv. keyword links, tj. vztahů mezi klíčovými slovy v textu a také konkordanci klíčových slov pro analýzu jejich bezprostředního okolí. |
===== Obrázky aplikace ===== | ===== Obrázky aplikace ===== |
| |
[{{:manual:kwords-vstup.png?direct&300|Zadávání textu do KWords}}] | [{{:kurz:kwords-vstup.png?direct&400 |Zadávání textu do KWords}}] |
[{{:manual:kwords-vystup.png?direct&300|Analyzovaný text spolu s vyznačenými klíčovými slovy}}] | [{{:kurz:kwords-vystup.png?direct&400 |Analyzovaný text spolu s vyznačenými klíčovými slovy}}] |
[{{:manual:kwords-tab.png?direct&300|Seznam klíčových slov}}] | [{{:kurz:kwords-tab.png?direct&400|Seznam klíčových slov}}] |
[{{:manual:kwords-distrib.png?direct&300|Distribuce klíčových slov napříč analyzovaným textem}}] | [{{:kurz:kwords-distrib.png?direct&400 |Distribuce klíčových slov napříč analyzovaným textem}}] |
[{{:manual:kwords-links.png?direct&300|Vzájemné vazby mezi klíčovými slovy (keyword links)}}] | [{{:kurz:kwords-links.png?direct&400 |Vzájemné vazby mezi klíčovými slovy (keyword links)}}] |
[{{:manual:kwords-comp.png?direct&300|Srovnání několika projevů -- multianalýza}}] | [{{:kurz:kwords-comp.png?direct&400| Srovnání několika projevů -- multianalýza}}] |
| |
| ===== Jak citovat KWords ===== |
| |
| <WRAP round tip 80%> |
| Cvrček, V. – Vondřička, P.: KWords. FF UK. Praha 2013. Dostupný z WWW: <http://kwords.korpus.cz>. |
| </WRAP> |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 49%> | <WRAP round box 49%> |
[[manual:menu:index|Rozhraní KonText]] • [[manual:syd|SyD]] • [[manual:morfio|Morfio]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:nastroje|Korpusové nástroje]] | [[manualy:kontext:index|Rozhraní KonText]] • [[syd|SyD]] • [[morfio|Morfio]] • [[treq|Treq]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:nastroje|Korpusové nástroje]] |
</WRAP> | </WRAP> |