Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
manual:syd [2014/11/25 17:27] – Václav Cvrček | manualy:syd [2021/03/09 15:09] (aktuální) – Jan Kocek |
---|
====== SyD ====== | ====== SyD ====== |
| {{ :manualy:syd_logo.png?nolink&200|}} |
| |
Aplikace SyD (ze **SY**nchronní a **D**iachronní analýza variant) slouží především k průzkumu vzájemně si konkurujících jazykových jevů. Slouží jako komplement k univerzálnějším [[pojmy:korpusovy_manazer|korpusovým manažerům]] a pomáhá snadno a rychle zprostředkovat výsledky v korpusu laickým uživatelům. Jak už název vypovídá, aplikace má dvě (v zásadě oddělené) části: | Aplikace SyD (ze **Sy**nchronní a **D**iachronní analýza variant) slouží především k průzkumu vzájemně si konkurujících jazykových jevů. Slouží jako komplement k univerzálnějším [[pojmy:korpusovy_manazer|korpusovým manažerům]] a pomáhá snadno a rychle zprostředkovat výsledky v korpusu laickým uživatelům. Jak už název vypovídá, aplikace má dvě (v zásadě oddělené) části: |
- synchronní, v níž je možné porovnávat varianty podle jejich frekvence a distribuce v textech | - synchronní, v níž je možné porovnávat varianty podle jejich frekvence a distribuce v textech |
- diachronní, v níž lze sledovat vývojové tendnce v užívání variant. | - diachronní, v níž lze sledovat vývojové tendnce v užívání variant. |
| |
{{ :manual:syd-logo.png?direct&200|}} | |
| |
Nástroj SyD je webovou aplikací (k jejímu používání se využívá pouze prohlížeč internetu) a je dostupná bez registrace na adrese [[http://syd.korpus.cz|syd.korpus.cz]]. V současnosti je k dispozici ve verzi 2.0, která byla zveřejněna v roce 2014 (první verze byla spuštěna v roce 2011). Součástí aplikace je stručná nápověda, zobrazené výsledky doprovází podrobný komentář. Stejně jako v ostatních aplikacích ([[manual:morfio|Morfio]], [[manual:kwords|KWords]]), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání. | |
| |
| Nástroj SyD je webovou aplikací (k její obsluze se využívá pouze prohlížeč internetu) a je dostupná bez [[kurz:zaciname|registrace]] na adrese **[[http://syd.korpus.cz|syd.korpus.cz]]**. |
| |
| V současnosti je k dispozici ve verzi 2.0, která byla zveřejněna v roce 2014 (první verze byla spuštěna v roce 2011). Součástí aplikace je stručná nápověda, zobrazené výsledky doprovází podrobný komentář. Stejně jako v některých ostatních aplikacích (např. [[manualy:morfio|Morfio]]), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání, a je tak vhodný pro sdílení a citování. |
===== Synchronní část ===== | ===== Synchronní část ===== |
| |
V rámci synchronní části může uživatel zadat dva (nebo i více) jevů, které chce porovnat. Konkurence se může týkat jak jejich pravopisné podoby, tak jejich morfologie, lze ale zkoumat i konkurenci slovotvornou, lexikologickou, syntaktickou či slovoslednou. Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slova) nebo pomocí dotazovacího jazyka [[pojmy:cql|CQL]]. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů. | V rámci synchronní části může uživatel zadat dva (nebo i více) jevů, které chce porovnat. Konkurence se může týkat jak jejich pravopisné podoby (např. //filozofie// vs. //filosofie//), tak jejich morfologie (//bychom// vs. //bysme//), lze ale zkoumat i konkurenci lexikologickou (//stále// vs. //pořád// vs. //furt//), syntaktickou či slovoslednou (//sebe sama// vs. //sama sebe//). Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slova) nebo pomocí dotazovacího jazyka [[pojmy:cql|CQL]]. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů. |
| |
Korpusy použité ve verzi 2.0: | Korpusy použité v aplikaci SyD (ve verzi 2.0): |
* [[cnk:syn2010|SYN2010]] pro psaný veřejný jazyk | * [[cnk:syn2010|SYN2010]] pro psaný (veřejný) jazyk |
* [[cnk:ksk-dopisy|KSK-Dopisy]] pro psaný neveřejný (a neformální) jazyk | * [[cnk:ksk-dopisy|KSK-Dopisy]] pro psaný neveřejný (a neformální) jazyk |
* [[cnk:oral2006|Oral2006]] + [[cnk:oral2008|Oral2008]] + [[cnk:oral2013|Oral2013]] pro mluvený neformální jazyk | * [[cnk:oral2006|Oral2006]] + [[cnk:oral2008|Oral2008]] + [[cnk:oral2013|Oral2013]] pro mluvený neformální jazyk |
V synchronní části analýzy je možné využívat [[pojmy:lemma|lemmatizaci]] (tj. dotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnosti. Zatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy). | V synchronní části analýzy je možné využívat [[pojmy:lemma|lemmatizaci]] (tj. dotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnosti. Zatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy). |
| |
Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě [[pojmy:atributy_strukturni|strukturních atributu]] [[pojmy:txtype|txtype]] a [[pojmy:genre|genre]]) i v mluveném jazyce (na základě atribtutů pohlaví, věk, vždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech. | Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě [[pojmy:atributy_strukturni|strukturních atributů]] [[pojmy:txtype|txtype]] a [[pojmy:genre|genre]]) i v mluveném jazyce (na základě atribtutů pohlaví, věk, vždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech. |
| |
Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi [[pojmy:kolokace|kolokačních]] paradigmat k jednotlivým dotazům. | Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi [[pojmy:kolokace|kolokačních]] paradigmat k jednotlivým dotazům. |
===== Diachronní část ===== | ===== Diachronní část ===== |
| |
Základem pro diachronní analýzu je korpus [[cnk:diakorp|Diakorp]] rozšířený o další data z dřívějších podob češtiny, které dosud neprošly ruční kontrolou. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady [[cnk:syn|SYN]]. Vzhledem k tomu, že starší texty nejsou dosud [[pojmy:lemma|lemmatizovány]], je možné použít dotazy pouze na atribut [[pojmy:word|word]] (slovní tvar). | Základem pro diachronní analýzu je korpus Diakon, který se skládá z textů korpusu [[cnk:diakorp|Diakorp]] rozšířených o další data z dřívějších podob češtiny, které dosud neprošly ruční kontrolou. Orientační výčet zdrojových textů do roku 1989 je k dispozici v sekci [[seznamy:index#zdrojove_texty_diachronnich_korpusu|seznamů]]. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady [[cnk:syn|SYN]]. Vzhledem k tomu, že starší texty nejsou dosud [[pojmy:lemma|lemmatizovány]], je možné použít dotazy pouze na atribut [[pojmy:word|word]] (slovní tvar). |
| |
Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letech. Vzhledem k tomu, že pokrytí časové osy stále není optimální, je třeba brát časové údaje spíše orientačně a pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem). | Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letech. Vzhledem k tomu, že pokrytí časové osy stále není optimální, je třeba brát časové údaje spíše orientačně a pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem). Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat. |
| |
Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat. | |
| |
===== Obrázky aplikace ===== | ===== Obrázky aplikace ===== |
| |
[{{:manual:syd-syn.png?direct&200|Vyhodnocení dotazu v synchronní části}}] | [{{:kurz:syd-syn.png?direct&200|Vyhodnocení dotazu v synchronní části}}] |
[{{:manual:syd-syn-distr.png?direct&200|Distribuce jevů v psaných textech}}] | [{{:kurz:syd-syn-distr.png?direct&200|Distribuce jevů v psaných textech}}] |
[{{:manual:syd-syn-kolok.png?direct&200|Kolokační analýza}}] | [{{:kurz:syd-syn-kolok.png?direct&200|Kolokační analýza}}] |
[{{:manual:syd-dia.png?direct&200|Vyhodnocení dotazu v diachronní části}}] | [{{:kurz:syd-dia.png?direct&200|Vyhodnocení dotazu v diachronní části}}] |
[{{:manual:syd-dia-roky.png?direct&200|Zobrazení počtu výskytů v jednotlivých letech}}] | [{{:kurz:syd-dia-roky.png?direct&200|Zobrazení počtu výskytů v jednotlivých letech}}] |
| |
| ===== Jak citovat SyD ===== |
| |
| <WRAP round tip 80%> |
| Cvrček, V. – Vondřička, P.: SyD – Korpusový průzkum variant. FF UK. Praha 2011. Dostupný z WWW: <http://syd.korpus.cz>. |
| |
| Cvrček, V. – Vondřička, P.: Výzkum variability v korpusech češtiny. In: F. Čermák (ed).: Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů. NLN. Praha, s. 184–195. |
| </WRAP> |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 49%> | <WRAP round box 50%> |
[[manual:menu:index|Rozhraní KonText]] • [[manual:morfio|Morfio]] • [[manual:kwords|KWords]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:nastroje|Korpusové nástroje]] | [[manualy:kontext:index|Rozhraní KonText]] • [[morfio|Morfio]] • [[kwords|KWords]] • [[treq|Treq]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:nastroje|Korpusové nástroje]] |
</WRAP> | </WRAP> |