AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
en:manualy:syd [2016/12/07 19:45] Veronika Pojarováen:manualy:syd [2021/03/09 15:10] (current) Jan Kocek
Line 1: Line 1:
 ====== SyD ====== ====== SyD ======
  
-{{ kurz:syd-logo.png?direct&200|}}+{{ :manualy:syd_logo.png?nolink&200|}}
  
-The SyD application (for the analysis of **Sy**nchronic and **D**iachronic variants) slouží především k průzkumu vzájemně si konkurujících jazykových jevůSlouží jako komplement k univerzálnějším [[pojmy:korpusovy_manazer|korpusovým manažerům]] a pomáhá snadno a rychle zprostředkovat výsledky v korpusu laickým uživatelůmJak už název vypovídáaplikace má dvě (v zásadě oddělenéčásti+The SyD application (for the analysis of **Sy**nchronic and **D**iachronic variants) serves primarily to study competing linguistic phenomenaIt serves as a supplementation of the more universal [[en:pojmy:korpusovy_manazer|corpus managers]], and can quickly and easily provide corpus results to lay usersAs its name suggeststhe application has two (essentially separateparts:  
-  - synchronnív níž je možné porovnávat varianty podle jejich frekvence a distribuce v textech +  - synchronicin which it is possible to compare variants based on their frequency and distribution in the texts 
-  - diachronnív níž lze sledovat vývojové tendnce v užívání variant.+  - diachronicin which it is possible to map the development tendencies in the use of the variants.
  
  
Line 11: Line 11:
 SyD is an online application (the only thing we need to use it is a web browser) and it is accessible without [[en:kurz:zaciname|registration]] to all users at **[[http://treq.korpus.cz|syd.korpus.cz]]**.  SyD is an online application (the only thing we need to use it is a web browser) and it is accessible without [[en:kurz:zaciname|registration]] to all users at **[[http://treq.korpus.cz|syd.korpus.cz]]**. 
  
-V současnosti je k dispozici ve verzi 2.0, která byla zveřejněna v roce 2014 (první verze byla spuštěna v roce 2011). Součástí aplikace je stručná nápovědazobrazené výsledky doprovází podrobný komentářStejně jako v některých ostatních aplikacích (např. [[manualy:morfio|Morfio]]), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání, a je tak vhodný pro sdílení a citování.+It is currently available in the version 2.0, which was published in 2014 (the first version was launched in 2011). The application includes a concise manualand the displayed results are accompanied by a detailed commentaryJust like in some of the other applications (e.g. in [[en:manualy:morfio|Morfio]]),permanent link leading to the input query is available in SyDu making it appropriate for sharing and citing.
  
-===== Synchronní část =====+===== The Synchronic part =====
  
-V rámci synchronní části může uživatel zadat dva (nebo i vícejevů, které chce porovnatKonkurence se může týkat jak jejich pravopisné podoby (např. //filozofie// vs. //filosofie//), tak jejich morfologie (//bychom// vs. //bysme//), lze ale zkoumat i konkurenci lexikologickou (//stále// vs. //pořád// vs. //furt//), syntaktickou či slovoslednou (//sebe sama// vs. //sama sebe//). Dotazy můžou být formulovány velmi trivialně (stačí prosté zadání hledaného slovanebo pomocí dotazovacího jazyka [[pojmy:cql|CQL]]. Aplikace všechny zadané dotazy vyhodnotí a zobrazí výsledky ve formě tabulek a grafů.+In the synchronic part the user can input two (or even morephenomena which he wants to compareThe opposition may relate to their spelling (eg. //filozofie// vs. //filosofie//), or to their morphology (//bychom// vs. //bysme//), however it is also possible to study lexicological opposition (//stále// vs. //pořád// vs. //furt//), or even syntax and word order in general (//sebe sama// vs. //sama sebe//). The queries can be written very trivially (a simple input of the desired word will sufficeor with the help of a query language, [[en:pojmy:dotazovací_jazyk|CQL]]. The application will evaluate all queries and will display the results in the form of tables and graphs.
  
 Corpora used in the SyD application (in the 2.0 version): Corpora used in the SyD application (in the 2.0 version):
Line 22: Line 22:
   * [[en:cnk:oral2006|Oral2006]] + [[en:cnk:oral2008|Oral2008]] + [[en:cnk:oral2013|Oral2013]] for spoken informal language   * [[en:cnk:oral2006|Oral2006]] + [[en:cnk:oral2008|Oral2008]] + [[en:cnk:oral2013|Oral2013]] for spoken informal language
  
-V synchronní části analýzy je možné využívat [[pojmy:lemma|lemmatizaci]] (tjdotazovat se na celý lexém včetně všech jeho tvarů), při vyhodnocování výsledků je však třeba obezřetnostiZatímco v korpusech řady SYN se využívá standardní lemmatizace, data pro mluvenou češtinu a pro korespondenci lemmatizována nejsou a je zde proto rozsah lemmatu odhadován na základě psaného jazyka (dotaz je nejprve vyhodnocen v korpusu SYN2010 a na základě tvarů v něm identifikovaných je sestaven dotaz pro nelemmatizované korpusy).+In the synchronic part of the analysis it is possible to use [[en:pojmy:lemma|lemmatization]] (i.eto search for an entire lexeme including all of its possible forms), however extra care must be taken when assessing the resultsWhile the SYN series corpora use standard lemmatization, data for spoken Czech and for correspondence are not lemmatized, and therefore the extent of the lemma is estimated based on the written language (the query is first assessed in the SYN2010 corpus and based on the forms identified query for the non-lemmatized corpora is constructed.
  
-Synchronní část poskytuje informaci o rozložení jevů v psaných textech (na základě [[pojmy:atributy_strukturni|strukturních atributů]] [[pojmy:txtype|txtype]] [[pojmy:genre|genre]]) i v mluveném jazyce (na základě atribtutů pohlavívěkvždělání a regionální příslušnost). Všechny údaje jsou relativizovány s ohledem na velikost dané kategorie v korpusech.+The synchronic part provides information about the distribution of phenomena in written texts (based on the [[en:pojmy:atributy_strukturni|structural attributes]] //[[en:pojmy:txtype|txtype]]// and //[[en:pojmy:genre|genre]]//and in spoken language (based on the attributes of genderageeducation and region). All data are made relative with regard to the size of the given category in the corpora.
  
-Pro analýzu lexikálních odlišností zkoumaných variant poskytuje aplikace SyD i zjednodušenou verzi [[pojmy:kolokace|kolokačních]] paradigmat k jednotlivým dotazům.+For the analysis of the lexical differences of the examined variants, the SyD application offers a simplified version of [[en:pojmy:kolokace|collocational]] paradigms to the individual queries.
  
-===== Diachronní část =====+===== The Diachronic part =====
  
-Základem pro diachronní analýzu je korpus Diakon, který se skládá z textů korpusu [[cnk:diakorp|Diakorp]] rozšířených o další data z dřívějších podob češtinykteré dosud neprošly ruční kontrolouOrientační výčet zdrojových textů do roku 1989 je k dispozici v sekci [[seznamy:index#zdrojove_texty_diachronnich_korpusu|seznamů]]. Nejmodernější období je reprezentováno výběrem ze synchronních korpusů řady [[cnk:syn|SYN]]. Vzhledem k tomu, že starší texty nejsou dosud [[pojmy:lemma|lemmatizovány]], je možné použít dotazy pouze na atribut [[pojmy:word|word]] (slovní tvar).+The basis for the diachronic analysis is the Diakon corpus which is composed of the [[en:cnk:diakorp|Diakorp]] corpus textsexpanded upon with data from earlier forms of Czech which have not yet been reviewed manuallyA makeshift list of source texts before the year 1989 is available in the [[en:seznamy:index#zdrojove_texty_diachronnich_korpusu|lists]] sectionThe most modern period is represented by a selection from the synchronic corpora of the [[en:cnk:syn|SYN]] seriesDue to the fact that the older texts are not yet [[en:pojmy:lemma|lemmatized]], it is possible to use only the [[en:pojmy:word|word]] attribute (word formfor queries.
  
-Aplikace SyD všechny zadané dotazy vyhodnotí a zjistí jejich relativní frekvenci v různých letechVzhledem k tomuže pokrytí časové osy stále není optimálníje třeba brát časové údaje spíše orientačně pro zobrazení trendů se užívá klouzavý průměr (s nastavitelným oknem). Zobrazení na časové ose obsahuje navíc ještě i míru chyby, s níž je třeba při analýze dat počítat+The SyD application will evaluate all queries and find their relative frequencies in various timer periodsBecause the coverage of all the time periods is not optimalit is advisable to understand the temporal information to be more of an approximationand to use moving average (with an adjustable windowfor displaying trendsThe portrayal on the timeline also includes an error rate which should also be taken into account when analyzing data
  
 ===== Application images ===== ===== Application images =====