Toto je starší verze dokumentu!
SyD
Aplikace SyD (ze Synchronní a Diachronní analýza variant) slouží především k průzkumu vzájemně si konkurujících jazykových jevů. Slouží jako komplement k univerzálnějším korpusovým manažerům a pomáhá snadno a rychle zprostředkovat výsledky v korpusu laickým uživatelům. Jak už název vypovídá, aplikace má dvě (v zásadě oddělené) části:
- synchronní, v níž je možné porovnávat varianty podle jejich frekvence a distribuce v textech
- diachronní, v níž lze sledovat vývojové tendnce v užívání variant.
Nástroj SyD je webovou aplikací (k její obsluze se využívá pouze prohlížeč internetu) a je dostupná bez registrace na adrese syd.korpus.cz.
V současnosti je k dispozici ve verzi 2.0, která byla zveřejněna v roce 2014 (první verze byla spuštěna v roce 2011). Součástí aplikace je stručná nápověda, zobrazené výsledky doprovází podrobný komentář. Stejně jako v některých ostatních aplikacích (např. Morfio), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání, a je tak vhodný pro sdílení a citování.
Synchronní část
V rámci synchronní části může uživatel zadat dva (nebo i více) jevů, které chce porovnat. Konkurence se může týkat jak jejich pravopisné podoby (např. filozofie vs. filosofie), tak jejich morfologie (bychom vs. bysme), lze ale zkoumat i konkurenci lexikologickou (stále vs. pořád vs. furt), syntaktickou či slovoslednou (sebe sama vs. sama sebe). Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slova) nebo pomocí dotazovacího jazyka CQL. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů.
Korpusy použité v aplikaci SyD (ve verzi 2.0):
- SYN2010 pro psaný (veřejný) jazyk
- KSK-Dopisy pro psaný neveřejný (a neformální) jazyk
V synchronní části analýzy je možné využívat lemmatizaci (tj. dotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnosti. Zatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy).
Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě strukturních atributů txtype a genre) i v mluveném jazyce (na základě atribtutů pohlaví, věk, vždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech.
Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi kolokačních paradigmat k jednotlivým dotazům.
Diachronní část
Základem pro diachronní analýzu je korpus Diakon, který se skládá z textů korpusu Diakorp rozšířených o další data z dřívějších podob češtiny, které dosud neprošly ruční kontrolou. Orientační výčet zdrojových textů do roku 1989 je k dispozici v sekci seznamů. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady SYN. Vzhledem k tomu, že starší texty nejsou dosud lemmatizovány, je možné použít dotazy pouze na atribut word (slovní tvar).
Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letech. Vzhledem k tomu, že pokrytí časové osy stále není optimální, je třeba brát časové údaje spíše orientačně a pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem). Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat.
Obrázky aplikace
Jak citovat SyD
Cvrček, V. – Vondřička, P.: SyD – Korpusový průzkum variant. FF UK. Praha 2011. Dostupný z WWW: <http://syd.korpus.cz>.
Cvrček, V. – Vondřička, P.: Výzkum variability v korpusech češtiny. In: F. Čermák (ed).: Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů. NLN. Praha, s. 184–195.