Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
manualy:kwords [2023/11/13 09:46] – [KWords] vaclavcvrcek | manualy:kwords [2023/12/08 14:49] – [Klíčová slova] michalskrabal |
---|
{{ :manualy:kwords_logo_v2.png?nolink&|}} | {{ :manualy:kwords_logo_v2.png?nolink&|}} |
| |
Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. | Aplikace KWords slouží k analýze textů na základě jejich srovnání s obecným územ ([[pojmy:referencni|referenčním]] korpusem). Jejím cílem je identifikovat tzv. [[pojmy:keyword|klíčová slova]] (keywords), což jsou [[pojmy:word|slovní tvary]] nebo [[pojmy:lemma|lemmata]], která se ve zkoumaném textu objevují významně častěji než v referenčním korpusu, který má zrcadlit běžný jazykový úzus. Tato klíčová slova slouží pak jako základ pro textovou analýzu a interpretaci. |
| |
KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:zaciname|registrace]] všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**. | KWords je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:zaciname|registrace]] všem uživatelům na adrese **[[http://kwords.korpus.cz|kwords.korpus.cz]]**. |
| |
První verze aplikace KWords byla vyvinuta pro účely analýzy politických projevů v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. Druhá verze vznikla v rámci projektu [[https://threat-defuser.org|Threat-defuser]]. Tato verze podporuje více než 30 jazyků a umožňuje vedle analýzy klíčových slov i tzv. keymorph analýzu ((viz Fidler, M. - Cvrček, V.: [[https://doi.org/10.1515/cllt-2016-0073|Keymorph analysis, or how morphosyntax informs discourse]]. Corpus Linguistics and Linguistic Theory. 15/1, p. 39–70.)) | První verze aplikace KWords byla vyvinuta pro účely analýzy politických projevů v rámci spolupráce s [[http://www.brown.edu|Brownovou univerzitou]]. Druhá verze vznikla v rámci projektu [[https://threat-defuser.org|Threat-defuser]]. Tato verze podporuje více než 30 jazyků a umožňuje vedle analýzy klíčových slov i tzv. keymorph analýzu.((viz Fidler, M. - Cvrček, V.: [[https://doi.org/10.1515/cllt-2016-0073|Keymorph analysis, or how morphosyntax informs discourse]]. Corpus Linguistics and Linguistic Theory. 15/1, p. 39–70.)) |
| |
===== Prominentní jednotky ===== | ===== Prominentní jednotky ===== |
Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. | Identifikace [[pojmy:keyword|klíčových slov]] probíhá na základě srovnání relativní [[pojmy:frekvence|frekvence]] každého slova ve zkoumaném textu s relativní frekvencí téhož slova v referenčním korpusu. Pro zjištění statistické signifikance rozdílů se užívá několik testů, v rámci KWords jsou implementovány dva: [[pojmy:chi2|chi2]] a [[pojmy:loglikelihood|log-likelihood]]. |
| |
Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít: | Výsledky analýzy klíčových slov jsou vždy ovlivněny volbou referenčního korpusu, který je třeba chápat jako neutrální jazykové pozadí, s nímž porovnáváme zkoumaný text. Např. při zkoumání novoročních projevů posledního komunistického prezidenta G. Husáka se jako prominentní ve srovnání se současným územ jeví slova //socialistický//, //soudružky// apod., nikoli ovšem při srovnání s dobovým referenčním korpusem. Jako referenční korpus je v aplikaci KWords v současné době možné použít jazykové větve korpusu [[cnk:intercorp|InterCorp]]. |
* pro češtinu | |
* [[cnk:syn2015|SYN2015]] | |
* [[cnk:syn2010|SYN2010]] | |
* [[cnk:syn2005|SYN2005]] | |
* diakon19 -- ad hoc vytvořený korpus z dostupných dat [[cnk:struktura#diachronnikorpus|diachronní složky ČNK]] pokrývající 19. století | |
* totalita -- korpus ideologických textů a oficiální publicistiky z období komunistické totality | |
* Oral -- korpusy [[cnk:oral2006|Oral2006]] a [[cnk:oral2008|Oral2008]] | |
* pub -- publicistická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] | |
* bel -- beletristická část korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] | |
* odb -- odborná literatura z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] | |
* pro angličtinu | |
* BNC -- [[http://www.natcorp.ox.ac.uk|British National Corpus]] | |
* COCA -- [[http://www.wordfrequency.info/100k.asp|Corpus of Contemporary American English]] | |
* InterCorp-EN v8 -- anglická část paralelního korpusu [[cnk:intercorp|InterCorp]] | |
==== Tématická koncentrace ==== | ==== Tématická koncentrace ==== |
| |