Skrýt
Nastavení

Toto je starší verze dokumentu!


SyD

Aplikace SyD (ze SYnchronní a Diachronní analýza variant) slouží především k průzkumu vzájemně si konkurujících jazykových jevů. Slouží jako komplement k univerzálnějším korpusovým manažerům a pomáhá snadno a rychle zprostředkovat výsledky v korpusu laickým uživatelům. Jak už název vypovídá, aplikace má dvě (v zásadě oddělené) části:

  1. synchronní, v níž je možné porovnávat varianty podle jejich frekvence a distribuce v textech
  2. diachronní, v níž lze sledovat vývojové tendnce v užívání variant.

Nástroj SyD je webovou aplikací (k jejímu používání se využívá pouze prohlížeč internetu) a je dostupná bez registrace na adrese syd.korpus.cz. V současnosti je k dispozici ve verzi 2.0, která byla zveřejněna v roce 2014 (první verze byla spuštěna v roce 2011). Součástí aplikace je stručná nápověda, zobrazené výsledky doprovází podrobný komentář. Stejně jako v ostatních aplikacích (Morfio, KWords), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání.

Synchronní část

V rámci synchronní části může uživatel zadat dva (nebo i více) jevů, které chce porovnat. Konkurence se může týkat jak jejich pravopisné podoby, tak jejich morfologie, lze ale zkoumat i konkurenci slovotvornou, lexikologickou, syntaktickou či slovoslednou. Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slova) nebo pomocí dotazovacího jazyka CQL. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů.

Korpusy použité ve verzi 2.0:

V synchronní části analýzy je možné využívat lemmatizaci (tj. dotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnosti. Zatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy).

Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě strukturních atributu txtype a genre) i v mluveném jazyce (na základě atribtutů pohlaví, věk, vždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech.

Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi kolokačních paradigmat k jednotlivým dotazům.

Diachronní část

Základem pro diachronní analýzu je korpus Diakorp rozšířený o další data z dřívějších podob češtiny, které dosud neprošly ruční kontrolou. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady SYN. Vzhledem k tomu, že starší texty nejsou dosud lemmatizovány, je možné použít dotazy pouze na atribut word (slovní tvar).

Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letech. Vzhledem k tomu, že pokrytí časové osy stále není optimální, je třeba brát časové údaje spíše orientačně a pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem).

Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat.

Obrázky aplikace

Invalid Link
Vyhodnocení dotazu v synchronní části
Invalid Link
Distribuce jevů v psaných textech
Invalid Link
Kolokační analýza
Invalid Link
Vyhodnocení dotazu v diachronní části
Invalid Link
Zobrazení počtu výskytů v jednotlivých letech

Související odkazy