~~NOTOC~~ ====== Korpus SYN2015 ====== Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[pojmy:syntakticka_analyza|syntaktické anotace]]. ^ Název ^^ SYN2015 ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 120 748 715 | ^ ::: ^ Počet pozic bez interpunkce | 100 838 568 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 751 599 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 777 011 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 3 376 | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 114 492 | ^ ::: ^ Počet odstavců

| 2 805 065 | ^ ::: ^ Počet vět | 8 004 732 | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | ANO (viz [[cnk:klasifikace_textu_syn2015|klasifikace textů]]) | ^ ::: ^ Rok zveřejnění | 2015 | ===== Změny oproti ostatním korpusům řady SYN ===== ==== Pojetí psanosti v SYN2015 ==== Pojetí [[pojmy:psany|psanosti]] bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''[[pojmy:txtype_group|txtype_group]]''): * beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama); * oborovou literaturu (zahrnující odborné texty vědecko-naučné i popularizující, učební texty a profesní literaturu); * publicistiku (zahrnující denní tisk a další periodika a neperiodické publicistické texty). ==== Reprezentativnost SYN2015 ==== Oproti předchozím korpusům řady SYN, jejichž pojetí [[pojmy:reprezentativnost|reprezentativnosti]] vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. ==== Klasifikace textů ==== Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]''. Nově přidanou úrovní je ''[[pojmy:genre_group|genre_group]]'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]). ^ Txtype_group ^ Podíl ^ | FIC: beletrie | 33,33 % | | NFC: oborová literatura | 33,33 % | | NMG: publicistika | 33,33 % | Zastoupení v rámci jednotlivých makroskupin shrnují následující grafy. [{{:cnk:syn2015-fic.png?direct&300|Typy textů v beletrii}}] [{{:cnk:syn2015-nfc.png?direct&330|Typy textů v oborové literatuře}}] [{{:cnk:syn2015-nmg.png?direct&350|Typy textů v publicistice}}] ==== Pojetí synchronie ==== Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: [{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] * pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce), * u odborných textů platí požadavek prvního vydání v posledních 25 letech, * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2015 je to období let 2010 až 2014). Výsledné složení korpusu podle počtu slov v jednotlivých letech shrnuje sloupcový graf. ==== Poziční anotace a značkování ==== Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání. Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): * [[seznamy:afun|afun]] – syntaktická funkce podle analytické roviny PDT * [[seznamy:parent|parent]], [[seznamy:eparent|eparent]] – relativní pozice tokenu, na němž je daný token závislý * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky * [[seznamy:p_tag|p_lemma, p_tag, ep_lemma, ep_tag]] – tag a lemma řídícího tokenu * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu Kromě těchto značek má korpus SYN2015 nově několik dalších [[pojmy:atributy_pozicni|pozičních atributů]]: * [[seznamy:proc|proc]] - informace o typu nástroje, který je zodpovědný za konečnou [[pojmy:desambiguace|disambiguaci]] tvaru * lemma_lc - hodnota atributu ''[[pojmy:lemma|lemma]]'' převedená na malá písmena (analogicky ke vztahu atributů [[pojmy:lc|lc]] a [[pojmy:word|word]]) ==== Struktura korpusu a strukturní značky ==== Struktura předchozích korpusů řady SYN se většinou řídila hierarchií '''' – '''' – '''' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument '''', který se skládá z jednoho nebo několika textů '''' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''

'' a vět ''''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury '''' (zvýraznění a řezy písma) a '''' (označení hranice verše v poezii). ^ '''' ^ Poznámka ^ '''' ^ Poznámka ^ ''

'' ^ Poznámka ^'' '' ^ Poznámka ^ | title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | jednoznačný identifikátor | | subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor | | | | author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | | | issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | | publisher | vydavatel | | | | | | | | pubplace | místo vydání | | | | | | | | pubyear | rok vydání | | | | | | | | first_published | rok 1. vydání | | | | | | | | translator | překladatel | | | | | | | | [[seznamy:srclang|srclang]] | zdrojový jazyk | | | | | | | | [[seznamy:authsex-transsex|authsex]] | pohlaví autora | | | | | | | | [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele | | | | | | | | [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | | [[seznamy:txtype|txtype]] | textový typ | | | | | | | | [[seznamy:genre_group|genre_group]] | skupina oborů | | | | | | | | [[seznamy:genre|genre]] | tematická oblast | | | | | | | | [[seznamy:med|medium]] | médium | | | | | | | | [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | | [[seznamy:audience|audience]] | adresát | | | | | | | | isbnissn | ISBN/ISSN | | | | | | | | biblio | generovaný bibliografický údaj | | | | | | | | id | jednoznačný identifikátor | | | | | | | ====== Jak citovat SYN2015 ====== Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//, 77 (2), 83–101. ISSN 0037-7031. Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1.