Toto je starší verze dokumentu!

Lists: Prohlížeč frekvenčních seznamů

Aplikace Lists umožňuje procházet frekvenční seznamy různých jednotek (lemma, word a lc) v reprezentativních korpusech psané češtiny (SYN2000, SYN2005, SYN2010, SYN2015) a v korpusu spontánní mluvené češtiny Oral v1. Pro každý korpus psané češtiny jsou navíc kromě celkových údajů k dispozici i dílčí frekvenční informace o třech jeho subkorpusech (beletrie, oborová literatura a publicistika). Frekvenční seznamy obsahují pouze jednotky, které se skládají výhradně z alfabetických znaků a z pomlčky a které mají v každém z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 nenulovou frekvenci (u korpusu ORAL v1 navíc přistupuje podmínka nenulovosti frekvence v tomto korpusu).

Při prohlížení seznamů podle korpusů (první záložka) jsou ke každé jednotce uvedeny 4 frekvenční údaje:

absolutní frekvence,
relativní frekvence (IPM),
průměrná redukovaná četnost (ARF),
průměrná redukovaná četnost normalizovaná na milion slov (ARFn).

Tabulka pro lemmata navíc obsahuje sloupec s informací o slovním druhu (POS). Údaje v tabulce lze podle libovolného sloupce řadit nebo filtrovat; podle číselných údajů lze filtrovat také zapsáním konkrétního intervalu v podobě M … N (např. tedy 10 … 99) do pole v záhlaví sloupce.

Druhá záložka prohlížeče umožňuje i jednoduché srovnání relativních frekvencí (IPM) a průměrných redukovaných četností normalizovaných na milion slov (ARFn) v rámci jednotlivých registrů (ostatní frekvenční údaje jsou závislé na velikost subkorpusu, a nemá je proto smysl přímo srovnávat). Údaje v této záložce jsou odvozeny z korpusů SYN2015 a Oral v1.

Kvůli srovnatelnosti a použití nejnovějších verzí lemmatizace a slovnědruhového značkování byly údaje pro korpusy SYN2000, SYN2005, SYN2010 a SYN2015 převzaty z odpovídajících subkorpusů korpusu SYN v7.

Aplikace je dostupná na adrese: https://jupyter.korpus.cz/lists/

Historie: • lists

Lists: Prohlížeč frekvenčních seznamů

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence