This is an old revision of the document!

SyD

The SyD application (for the analysis of Synchronic and Diachronic variants) serves primarily to study competing linguistic phenomena. It serves as a supplementation of the more universal corpus managers, and can quickly and easily provide corpus results to lay users. As its name suggests, the application has two (essentially separate) parts:

synchronic, in which it is possible to compare variants based on their frequency and distribution in the texts
diachronic, in which it is possible to map the development tendencies in the use of the variants.

SyD is an online application (the only thing we need to use it is a web browser) and it is accessible without registration to all users at syd.korpus.cz.

It is currently available in the version 2.0, which was published in 2014 (the first version was launched in 2011). The application includes a concise manual, and the displayed results are accompanied by a detailed commentary. Just like in some of the other applications (e.g. in Morfio), a permanent link leading to the input query is available in SyDu making it appropriate for sharing and citing.

The Synchronic part

In the synchronic part the user can input two (or even more) phenomena which he wants to compare. Konkurence se může týkat jak jejich pravopisné podoby (např. filozofie vs. filosofie), tak jejich morfologie (bychom vs. bysme), lze ale zkoumat i konkurenci lexikologickou (stále vs. pořád vs. furt), syntaktickou či slovoslednou (sebe sama vs. sama sebe). Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slova) nebo pomocí dotazovacího jazyka CQL. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů.

Corpora used in the SyD application (in the 2.0 version):

SYN2010 for written (public) language
KSK-Dopisy for written private (and informal) language
Oral2006 + Oral2008 + Oral2013 for spoken informal language

V synchronní části analýzy je možné využívat lemmatizaci (tj. dotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnosti. Zatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy).

Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě strukturních atributů txtype a genre) i v mluveném jazyce (na základě atribtutů pohlaví, věk, vždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech.

Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi kolokačních paradigmat k jednotlivým dotazům.

The Diachronic part

Základem pro diachronní analýzu je korpus Diakon, který se skládá z textů korpusu Diakorp rozšířených o další data z dřívějších podob češtiny, které dosud neprošly ruční kontrolou. Orientační výčet zdrojových textů do roku 1989 je k dispozici v sekci seznamů. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady SYN. Vzhledem k tomu, že starší texty nejsou dosud lemmatizovány, je možné použít dotazy pouze na atribut word (slovní tvar).

Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letech. Vzhledem k tomu, že pokrytí časové osy stále není optimální, je třeba brát časové údaje spíše orientačně a pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem). Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat.