Toto je starší verze dokumentu!
Lists: Prohlížeč frekvenčních seznamů
Aplikace Lists umožňuje procházet frekvenční seznamy různých jednotek (lemma, word a lc) v reprezentativních korpusech psané češtiny (SYN2000, SYN2005, SYN2010, SYN2015) a v korpusu spontánní mluvené češtiny Oral v1. Pro každý korpus psané češtiny jsou navíc kromě celkových údajů k dispozici i dílčí frekvenční informace o třech jeho subkorpusech (beletrie, oborová literatura a publicistika). Frekvenční seznamy obsahují pouze jednotky, které se skládají výhradně z alfabetických znaků a z pomlčky a které mají v každém z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 nenulovou frekvenci (u korpusu ORAL v1 navíc přistupuje podmínka nenulovosti frekvence v tomto korpusu).
Při prohlížení seznamů podle korpusů (první záložka) jsou ke každé jednotce uvedeny 4 frekvenční údaje:
- absolutní frekvence,
- relativní frekvence (IPM),
- průměrná redukovaná četnost (ARF),
- průměrná redukovaná četnost normalizovaná na milion slov (ARFn).
Tabulka pro lemmata navíc obsahuje sloupec s informací o slovním druhu (POS). Údaje v tabulce lze podle libovolného sloupce řadit nebo filtrovat; podle číselných údajů lze filtrovat také zapsáním konkrétního intervalu v podobě M … N (např. tedy 10 … 99) do pole v záhlaví sloupce.
Druhá záložka prohlížeče umožňuje i jednoduché srovnání relativních frekvencí (IPM) a průměrných redukovaných četností normalizovaných na milion slov (ARFn) v rámci jednotlivých registrů (ostatní frekvenční údaje jsou závislé na velikost subkorpusu, a nemá je proto smysl přímo srovnávat). Údaje v této záložce jsou odvozeny z korpusů SYN2015 a Oral v1.
Kvůli srovnatelnosti a použití nejnovějších verzí lemmatizace a slovnědruhového značkování byly údaje pro korpusy SYN2000, SYN2005, SYN2010 a SYN2015 převzaty z odpovídajících subkorpusů korpusu SYN v7.
Aplikace je dostupná na adrese: https://jupyter.korpus.cz/lists/