Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
en:cnk:syn2015 [2016/12/11 10:03]
Veronika Pojarová
en:cnk:syn2015 [2020/09/01 17:46]
Michal Křen [Positional annotation and tagging]
Line 33: Line 33:
 ==== Text classification ==== ==== Text classification ====
  
-The original **text classification** scheme of the SYN series has been updated and revised; both original and revised classifications are based on text-external criteria that reflect predominant function of a text. The revision has been made with respect to comparability with the original scheme, with the most significant change made to the sub-classification of non-fiction adopted from the [[http://www.en.nkp.cz|Czech National Library]] and more detailed classification of newspaper texts.+The original **text classification** scheme of the SYN series has been [[https://wiki.korpus.cz/doku.php/en:cnk:klasifikace_textu_syn2015|updated and revised]]; both original and revised classifications are based on text-external criteria that reflect predominant function of a text. The revision has been made with respect to comparability with the original scheme, with the most significant change made to the sub-classification of non-fiction adopted from the [[http://www.en.nkp.cz|Czech National Library]] and more detailed classification of newspaper texts.
  
 ^ Txtype_group ^ Portion ^ ^ Txtype_group ^ Portion ^
Line 44: Line 44:
  
  
-----+<WRAP clear></WRAP>
  
 In line with its predecessors, SYN2015 contains a large variety of texts from various publishers within the given classification category. A category is defined by a combination of two variables: text type and genre. Proportions of the particular categories in SYN2015 are set arbitrarily, yet close to the original figures.  In line with its predecessors, SYN2015 contains a large variety of texts from various publishers within the given classification category. A category is defined by a combination of two variables: text type and genre. Proportions of the particular categories in SYN2015 are set arbitrarily, yet close to the original figures. 
  
 Next to the text type and genre, metadata related to the text classification and available for every document also include medium (book, journal, textbook etc.), periodicity (daily, weekly, monthly, less than monthly, non-periodical) and audience (general, children/youth). Standard division of the newspapers into the individual articles is also supplemented by their separate classification into 13 sections (politics, economics, sports, culture, leisure, commentaries etc.) and information about the author that is available for all prominent newspaper titles. Next to the text type and genre, metadata related to the text classification and available for every document also include medium (book, journal, textbook etc.), periodicity (daily, weekly, monthly, less than monthly, non-periodical) and audience (general, children/youth). Standard division of the newspapers into the individual articles is also supplemented by their separate classification into 13 sections (politics, economics, sports, culture, leisure, commentaries etc.) and information about the author that is available for all prominent newspaper titles.
 +
 A more detailed description of the text types contained within the macro groups: A more detailed description of the text types contained within the macro groups:
  
Line 72: Line 73:
 | LEI | | leisure magazines |  13,33 % | | LEI | | leisure magazines |  13,33 % |
  
-==== Pojetí synchronie ====+A detailed information about the text classification scheme is available [[https://wiki.korpus.cz/doku.php/en:cnk:klasifikace_textu_syn2015|here]].
  
-Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:+==== Concept of synchronicity ====
  
- [{{:en:cnk:roky-en.png?direct&600|Proportion of fictionnon-fiction, newspapers and magazines in each year}}]+We are working under the assumption that a [[en:pojmy:synchronni|synchronic]] text is one that is still being read (or published)which is indicated by the year of publication. The boundaries of synchrony differ for each of the three macro groups:
  
-  * pro beletrii platí strategie 25 + 75, tjdoba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generacea konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce), +  * for fiction it is 25 + 75, i.ethe time elapsed since the first publication is less than 75 years (approximately three living generationsand the given issue of the text being added to the corpus is no older than 25 years (ensuring reception in the present), 
-  * u odborných textů platí požadavek prvního vydání v posledních 25 letech+  * for non-fiction texts the first issue must be no older than 25 years
-  * hranice synchronie publicistických titulů zůstává nezměněnatj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2015 je to období let 2010 až 2014).+  * the boundaries for the synchrony of newspapers and magazines remains unchangedi.ethe text must have been published in the period which is being mapped by the corpus (in the case of SYN2015 it is the period between 2010 and 2014).
  
-Výsledné složení korpusu podle počtu slov v jednotlivých letech shrnuje sloupcový graf.+The resulting makeup of the corpus in no. of words over the years is summarized by the following graph.
  
-==== Poziční anotace a značkování ====+ [{{:en:cnk:roky-en.png?direct&600|Proportion of fiction, non-fiction, newspapers and magazines in each year}}]
  
-Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání.+==== Positional annotation and tagging ====
  
-Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): +Compared to previous versions there have been improvements in [[en:pojmy:lemma|lemmatization]] and [[en:pojmy:morfologicka_analyza|morphological tagging]]; both are almost identical to the processes used for the corpus [[en:cnk:syn2013pub|SYN2013PUB]], nonetheless SYN2015 was processed using the newest versions of all the tools (the improvements relate both to the morphological dictionary and to the rule-based [[en:pojmy:desambiguace|disambiguation]]). Furthermorethe lemmatization of punctuation marks has changedpreserving the form of the characters as much as possible. 
-  * [[seznamy:afun|afun]] – syntaktická funkce podle analytické roviny PDT +
-  * [[seznamy:parent|parent]], [[seznamy:eparent|eparent]] – relativní pozice tokenu, na němž je daný token závislý +
-  * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky +
-  * [[seznamy:p_tag|p_lemmap_tagep_lemma, ep_tag]] – tag a lemma řídícího tokenu +
-  * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu+
  
-Kromě těchto značek má korpus SYN2015 nově několik dalších [[pojmy:atributy_pozicni|pozičních atributů]]: +Last but not least, SYN2015 is the first CNC corpus featuring a **[[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_analyza|syntactic annotation]]**.
-  [[seznamy:proc|proc]] - informace o typu nástroje, který je zodpovědný za konečnou [[pojmy:desambiguace|disambiguaci]] tvaru +
-  lemma_lc - hodnota atributu ''[[pojmy:lemma|lemma]]'' převedená na malá písmena (analogicky ke vztahu atributů [[pojmy:lc|lc]] a [[pojmy:word|word]]) +
- +
-==== Struktura korpusu a strukturní značky ==== +
- +
-Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tjucelený text nebo soubor textů – oddíl nebo kapitola – věta)V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky)Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii). +
- +
-^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ +
-| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | unique identifier | +
-| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor |  |  | +
-| author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  | +
-| issue | vydání (u periodik) | id | unique identifier |  |  |  |  | +
-| publisher | vydavatel |  |  |  |  |  |  | +
-| pubplace | place of publishing |  |  |  |  |  |  | +
-| pubyear | year published |  |  |  |  |  |  | +
-| first_published | year of 1st publication |  |  |  |  |  |  | +
-| translator | překladatel |  |  |  |  |  |  | +
-| [[seznamy:srclang|srclang]] | zdrojový jazyk |  |  |  |  |  |  | +
-| [[seznamy:authsex-transsex|authsex]] | pohlaví autora |  |  |  |  |  |  | +
-| [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele |  |  |  |  |  |  | +
-| [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  | +
-| [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  | +
-| [[seznamy:genre_group|genre_group]] | skupina oborů |  |  |  |  |  |  | +
-| [[seznamy:genre|genre]] | tematická oblast |  |  |  |  |  |  | +
-| [[seznamy:med|medium]] | médium |  |  |  |  |  |  | +
-| [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  | +
-| [[seznamy:audience|audience]] | adresát |  |  |  |  |  |  | +
-| isbnissn | ISBN/ISSN |  |  |  |  |  |  | +
-| biblio | generovaný bibliografický údaj |  |  |  |  |  |  | +
-| id | jednoznačný identifikátor |  |  |  |  |  |  |+
  
 ====== How to cite SYN2015 ====== ====== How to cite SYN2015 ======
Line 135: Line 101:
  
 Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1. Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1.
 +</WRAP>
 +
 +====== Related links ======
 +
 +<WRAP round box 49%>
 +[[en:cnk:syn|SYN]] • [[en:cnk:syn2000|SYN2000]] • [[en:cnk:syn2005|SYN2005]] • [[en:cnk:syn2006pub|SYN2006PUB]] • [[en:cnk:syn2009pub|SYN2009PUB]] • [[en:cnk:syn2010|SYN2010]] • [[en:cnk:syn2013PUB|SYN2013PUB]]
 </WRAP> </WRAP>