Toto je starší verze dokumentu!
SyD
Aplikace SyD (ze SYnchronní a Diachronní analýza variant) slouží především k průzkumu vzájemně si konkurujících jazykových jevů. Jak už název vypovídá, aplikace má dvě (v zásadě oddělené) části:
- synchronní, v níž je možné porovnávat varianty podle jejich frekvence a distribuce v textech
- diachronní, v níž lze sledovat vývojové tendnce v užívání variant.
Nástroj SyD je webovou aplikací (k jejímu používání se využívá pouze prohlížeč internetu) a je dostupná bez registrace na adrese syd.korpus.cz. V současnosti je k dispozici ve verzi 2.0, která byla zveřejněna v roce 2014 (první verze byla spuštěna v roce 2011). Součástí aplikace je stručná nápověda, zobrazené výsledky doprovází podrobný komentář. Stejně jako v ostatních aplikacích (Morfio, KWords), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání.
Synchronní část
V rámci synchronní části může uživatel zadat dva (nebo i více) jevů, které chce porovnat. Konkurence se může týkat jak jejich pravopisné podoby, tak jejich morfologie, lze ale zkoumat i konkurenci slovotvornou, lexikologickou, syntaktickou či slovoslednou. Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slova) nebo pomocí dotazovacího jazyka CQL. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů.
Korpusy použité ve verzi 2.0:
- SYN2010 pro psaný veřejný jazyk
- KSK-Dopisy pro psaný neveřejný (a neformální) jazyk
V synchronní části analýzy je možné využívat lemmatizaci (tj. dotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnosti. Zatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy).
Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě strukturních atributu txtype a genre) i v mluveném jazyce (na základě atribtutů pohlaví, věk, vždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech.
Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi kolokačních paradigmat k jednotlivým dotazům.
Diachronní část
Základem pro diachronní analýzu je korpus Diakorp rozšířený o další data z dřívějších podob češtiny, které dosud neprošly ruční kontrolou. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady SYN. Vzhledem k tomu, že starší texty nejsou dosud lemmatizovány, je možné použít dotazy pouze na atribut word (slovní tvar).
Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letech. Vzhledem k tomu, že pokrytí časové osy stále není optimální, je třeba brát časové údaje spíše orientačně a pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem).
Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat.