====== SyD ====== {{ :manualy:syd_logo.png?nolink&200|}} Aplikace SyD (ze **Sy**nchronní a **D**iachronní analýza variant) slouží především k průzkumu vzájemně si konkurujících jazykových jevů. Slouží jako komplement k univerzálnějším [[pojmy:korpusovy_manazer|korpusovým manažerům]] a pomáhá snadno a rychle zprostředkovat výsledky v korpusu laickým uživatelům. Jak už název vypovídá, aplikace má dvě (v zásadě oddělené) části: - synchronní, v níž je možné porovnávat varianty podle jejich frekvence a distribuce v textech - diachronní, v níž lze sledovat vývojové tendnce v užívání variant. Nástroj SyD je webovou aplikací (k její obsluze se využívá pouze prohlížeč internetu) a je dostupná bez [[kurz:zaciname|registrace]] na adrese **[[http://syd.korpus.cz|syd.korpus.cz]]**. V současnosti je k dispozici ve verzi 2.0, která byla zveřejněna v roce 2014 (první verze byla spuštěna v roce 2011). Součástí aplikace je stručná nápověda, zobrazené výsledky doprovází podrobný komentář. Stejně jako v některých ostatních aplikacích (např. [[manualy:morfio|Morfio]]), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání, a je tak vhodný pro sdílení a citování. ===== Synchronní část ===== V rámci synchronní části může uživatel zadat dva (nebo i více) jevů, které chce porovnat. Konkurence se může týkat jak jejich pravopisné podoby (např. //filozofie// vs. //filosofie//), tak jejich morfologie (//bychom// vs. //bysme//), lze ale zkoumat i konkurenci lexikologickou (//stále// vs. //pořád// vs. //furt//), syntaktickou či slovoslednou (//sebe sama// vs. //sama sebe//). Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slova) nebo pomocí dotazovacího jazyka [[pojmy:cql|CQL]]. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů. Korpusy použité v aplikaci SyD (ve verzi 2.0): * [[cnk:syn2010|SYN2010]] pro psaný (veřejný) jazyk * [[cnk:ksk-dopisy|KSK-Dopisy]] pro psaný neveřejný (a neformální) jazyk * [[cnk:oral2006|Oral2006]] + [[cnk:oral2008|Oral2008]] + [[cnk:oral2013|Oral2013]] pro mluvený neformální jazyk V synchronní části analýzy je možné využívat [[pojmy:lemma|lemmatizaci]] (tj. dotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnosti. Zatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy). Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě [[pojmy:atributy_strukturni|strukturních atributů]] [[pojmy:txtype|txtype]] a [[pojmy:genre|genre]]) i v mluveném jazyce (na základě atribtutů pohlaví, věk, vždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech. Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi [[pojmy:kolokace|kolokačních]] paradigmat k jednotlivým dotazům. ===== Diachronní část ===== Základem pro diachronní analýzu je korpus Diakon, který se skládá z textů korpusu [[cnk:diakorp|Diakorp]] rozšířených o další data z dřívějších podob češtiny, které dosud neprošly ruční kontrolou. Orientační výčet zdrojových textů do roku 1989 je k dispozici v sekci [[seznamy:index#zdrojove_texty_diachronnich_korpusu|seznamů]]. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady [[cnk:syn|SYN]]. Vzhledem k tomu, že starší texty nejsou dosud [[pojmy:lemma|lemmatizovány]], je možné použít dotazy pouze na atribut [[pojmy:word|word]] (slovní tvar). Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letech. Vzhledem k tomu, že pokrytí časové osy stále není optimální, je třeba brát časové údaje spíše orientačně a pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem). Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat. ===== Obrázky aplikace ===== [{{:kurz:syd-syn.png?direct&200|Vyhodnocení dotazu v synchronní části}}] [{{:kurz:syd-syn-distr.png?direct&200|Distribuce jevů v psaných textech}}] [{{:kurz:syd-syn-kolok.png?direct&200|Kolokační analýza}}] [{{:kurz:syd-dia.png?direct&200|Vyhodnocení dotazu v diachronní části}}] [{{:kurz:syd-dia-roky.png?direct&200|Zobrazení počtu výskytů v jednotlivých letech}}] ===== Jak citovat SyD ===== Cvrček, V. – Vondřička, P.: SyD – Korpusový průzkum variant. FF UK. Praha 2011. Dostupný z WWW: . Cvrček, V. – Vondřička, P.: Výzkum variability v korpusech češtiny. In: F. Čermák (ed).: Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů. NLN. Praha, s. 184–195. ==== Související odkazy ==== [[manualy:kontext:index|Rozhraní KonText]] • [[morfio|Morfio]] • [[kwords|KWords]] • [[treq|Treq]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:nastroje|Korpusové nástroje]]