Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
en:cnk:syn2015 [2016/12/11 10:13]
Veronika Pojarová [Concept of synchronicity]
en:cnk:syn2015 [2020/09/01 17:46]
Michal Křen [Positional annotation and tagging]
Line 33: Line 33:
 ==== Text classification ==== ==== Text classification ====
  
-The original **text classification** scheme of the SYN series has been updated and revised; both original and revised classifications are based on text-external criteria that reflect predominant function of a text. The revision has been made with respect to comparability with the original scheme, with the most significant change made to the sub-classification of non-fiction adopted from the [[http://www.en.nkp.cz|Czech National Library]] and more detailed classification of newspaper texts.+The original **text classification** scheme of the SYN series has been [[https://wiki.korpus.cz/doku.php/en:cnk:klasifikace_textu_syn2015|updated and revised]]; both original and revised classifications are based on text-external criteria that reflect predominant function of a text. The revision has been made with respect to comparability with the original scheme, with the most significant change made to the sub-classification of non-fiction adopted from the [[http://www.en.nkp.cz|Czech National Library]] and more detailed classification of newspaper texts.
  
 ^ Txtype_group ^ Portion ^ ^ Txtype_group ^ Portion ^
Line 44: Line 44:
  
  
----- +<WRAP clear></WRAP>
  
 In line with its predecessors, SYN2015 contains a large variety of texts from various publishers within the given classification category. A category is defined by a combination of two variables: text type and genre. Proportions of the particular categories in SYN2015 are set arbitrarily, yet close to the original figures.  In line with its predecessors, SYN2015 contains a large variety of texts from various publishers within the given classification category. A category is defined by a combination of two variables: text type and genre. Proportions of the particular categories in SYN2015 are set arbitrarily, yet close to the original figures. 
Line 73: Line 72:
 | ::: | REG | regional newspapers |  5 % | | ::: | REG | regional newspapers |  5 % |
 | LEI | | leisure magazines |  13,33 % | | LEI | | leisure magazines |  13,33 % |
 +
 +A detailed information about the text classification scheme is available [[https://wiki.korpus.cz/doku.php/en:cnk:klasifikace_textu_syn2015|here]].
  
 ==== Concept of synchronicity ==== ==== Concept of synchronicity ====
Line 86: Line 87:
  [{{:en:cnk:roky-en.png?direct&600|Proportion of fiction, non-fiction, newspapers and magazines in each year}}]  [{{:en:cnk:roky-en.png?direct&600|Proportion of fiction, non-fiction, newspapers and magazines in each year}}]
  
-==== Poziční anotace a značkování ====+==== Positional annotation and tagging ====
  
-Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]])pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovekapostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podobakterou je výhodné použít pro vyhledávání.+Compared to previous versions there have been improvements in [[en:pojmy:lemma|lemmatization]] and [[en:pojmy:morfologicka_analyza|morphological tagging]]; both are almost identical to the processes used for the corpus [[en:cnk:syn2013pub|SYN2013PUB]], nonetheless SYN2015 was processed using the newest versions of all the tools (the improvements relate both to the morphological dictionary and to the rule-based [[en:pojmy:desambiguace|disambiguation]]). Furthermorethe lemmatization of punctuation marks has changedpreserving the form of the characters as much as possible
  
-Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): +Last but not least, SYN2015 is the first CNC corpus featuring a **[[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_analyza|syntactic annotation]]**.
-  * [[seznamy:afun|afun]] – syntaktická funkce podle analytické roviny PDT +
-  * [[seznamy:parent|parent]], [[seznamy:eparent|eparent]] – relativní pozice tokenu, na němž je daný token závislý +
-  * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky +
-  * [[seznamy:p_tag|p_lemma, p_tag, ep_lemma, ep_tag]] – tag a lemma řídícího tokenu +
-  * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu +
- +
-Kromě těchto značek má korpus SYN2015 nově několik dalších [[pojmy:atributy_pozicni|pozičních atributů]]+
-  [[seznamy:proc|proc]] - informace o typu nástroje, který je zodpovědný za konečnou [[pojmy:desambiguace|disambiguaci]] tvaru +
-  lemma_lc - hodnota atributu ''[[pojmy:lemma|lemma]]'' převedená na malá písmena (analogicky ke vztahu atributů [[pojmy:lc|lc]] a [[pojmy:word|word]]) +
- +
-==== Struktura korpusu a strukturní značky ==== +
- +
-Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tjucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii). +
- +
-^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ +
-| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | unique identifier | +
-| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor |  |  | +
-| author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  | +
-| issue | vydání (u periodik) | id | unique identifier |  |  |  |  | +
-| publisher | vydavatel |  |  |  |  |  |  | +
-| pubplace | place of publishing |  |  |  |  |  |  | +
-| pubyear | year published |  |  |  |  |  |  | +
-| first_published | year of 1st publication |  |  |  |  |  |  | +
-| translator | překladatel |  |  |  |  |  |  | +
-| [[seznamy:srclang|srclang]] | zdrojový jazyk |  |  |  |  |  |  | +
-| [[seznamy:authsex-transsex|authsex]] | pohlaví autora |  |  |  |  |  |  | +
-| [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele |  |  |  |  |  |  | +
-| [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  | +
-| [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  | +
-| [[seznamy:genre_group|genre_group]] | skupina oborů |  |  |  |  |  |  | +
-| [[seznamy:genre|genre]] | tematická oblast |  |  |  |  |  |  | +
-| [[seznamy:med|medium]] | médium |  |  |  |  |  |  | +
-| [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  | +
-| [[seznamy:audience|audience]] | adresát |  |  |  |  |  |  | +
-| isbnissn | ISBN/ISSN |  |  |  |  |  |  | +
-| biblio | generovaný bibliografický údaj |  |  |  |  |  |  | +
-| id | jednoznačný identifikátor |  |  |  |  |  |  |+
  
 ====== How to cite SYN2015 ====== ====== How to cite SYN2015 ======
Line 137: Line 101:
  
 Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1. Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1.
 +</WRAP>
 +
 +====== Related links ======
 +
 +<WRAP round box 49%>
 +[[en:cnk:syn|SYN]] • [[en:cnk:syn2000|SYN2000]] • [[en:cnk:syn2005|SYN2005]] • [[en:cnk:syn2006pub|SYN2006PUB]] • [[en:cnk:syn2009pub|SYN2009PUB]] • [[en:cnk:syn2010|SYN2010]] • [[en:cnk:syn2013PUB|SYN2013PUB]]
 </WRAP> </WRAP>