Lists: Prohlížeč frekvenčních seznamů
Aplikace Lists umožňuje procházet frekvenční seznamy různých jednotek (lemma, word a lc) v reprezentativních korpusech psané češtiny (SYN2000, SYN2005, SYN2010, SYN2015) a v korpusu spontánní mluvené češtiny Oral v1. Pro každý korpus psané češtiny jsou navíc kromě celkových údajů k dispozici i dílčí frekvenční informace o třech jeho subkorpusech (beletrie, oborová literatura a publicistika). Frekvenční seznamy obsahují pouze jednotky, které se skládají výhradně z alfabetických znaků a z pomlčky a které mají v každém z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 nenulovou frekvenci (u korpusu ORAL v1 navíc přistupuje podmínka nenulovosti frekvence v tomto korpusu).
Při prohlížení seznamů podle korpusů (první záložka) jsou ke každé jednotce uvedeny 4 frekvenční údaje:
- absolutní frekvence,
- relativní frekvence (IPM),
- průměrná redukovaná četnost (ARF),
- průměrná redukovaná četnost normalizovaná na milion slov (ARFn).
Tabulka pro lemmata navíc obsahuje sloupec s informací o slovním druhu (POS). Údaje v tabulce lze podle libovolného sloupce řadit nebo filtrovat; podle číselných údajů lze filtrovat také zapsáním konkrétního intervalu v podobě M … N
(např. tedy 10 … 99
) do pole v záhlaví sloupce.
Druhá záložka prohlížeče umožňuje i jednoduché srovnání relativních frekvencí (IPM) a průměrných redukovaných četností normalizovaných na milion slov (ARFn) v rámci jednotlivých registrů (ostatní frekvenční údaje jsou závislé na velikost subkorpusu, a nemá je proto smysl přímo srovnávat). Údaje v této záložce jsou odvozeny z korpusů SYN2015 a Oral v1.
Kvůli srovnatelnosti a použití nejnovějších verzí lemmatizace a slovnědruhového značkování byly údaje pro korpusy SYN2000, SYN2005, SYN2010 a SYN2015 převzaty z odpovídajících subkorpusů korpusu SYN v7.
Aplikace je dostupná na adrese http://www.korpus.cz/lists
Kromě aplikace Lists nabízí ČNK také další možnosti práce s frekvenčními seznamy:
- registrovaní uživatelé ČNK mohou vytvářet parametrizovatelné frekvenční seznamy přímo ve webovém rozhraní KonText pomocí funkce Seznam slov,
- je možné stáhnout také speciálně upravené srovnávací frekvenční seznamy,
- pokud byste měli zájem o jinak zpracovaná data, napište nám na e-mail na cnk (at) korpus.cz
Jak citovat Lists
Křen, M. - Cvrček, V. : Lists: Prohlížeč frekvenčních seznamů. FF UK. Praha 2019. Dostupný z WWW: <http://www.korpus.cz/lists>.