Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:syn2015 [2015/12/17 18:18] – [Poziční anotace a značkování] michalkren | cnk:syn2015 [2015/12/18 17:06] – [Pojetí synchronie] vaclavcvrcek |
---|
====== Korpus SYN2015 ====== | ====== Korpus SYN2015 ====== |
| |
Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus současné [[pojmy:psany|psané]] češtiny (viz dále revize pojetí synchronnosti, reprezentativnosti a psanosti), obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. | Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. |
| |
| |
^ ::: ^ Rok zveřejnění | 2015 | | ^ ::: ^ Rok zveřejnění | 2015 | |
</WRAP> | </WRAP> |
| |
===== Změny oproti ostatním korpusům řady SYN ===== | ===== Změny oproti ostatním korpusům řady SYN ===== |
| |
==== Pojetí psanosti v SYN2015 ==== | ==== Pojetí psanosti v SYN2015 ==== |
| |
Pojetí psanosti bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. | Pojetí [[pojmy:psany|psanosti]] bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. |
| |
Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''txtype_group''): | Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''[[pojmy:txtype_group|txtype_group]]''): |
| |
* beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama); | * beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama); |
==== Reprezentativnost SYN2015 ==== | ==== Reprezentativnost SYN2015 ==== |
| |
Oproti předchozím korpusům řady SYN, jejichž pojetí reprezentativnosti vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejpestřejší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. | Oproti předchozím korpusům řady SYN, jejichž pojetí [[pojmy:reprezentativnost|reprezentativnosti]] vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. |
| |
==== Klasifikace textů ==== | ==== Klasifikace textů ==== |
| |
Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''txtype_group'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''txtype''. Nově přidanou úrovní je ''genre_group'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''genre'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]). | Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]''. Nově přidanou úrovní je ''[[pojmy:genre_group|genre_group]]'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]). |
| |
^ Txtype_group ^ Podíl ^ | ^ Txtype_group ^ Podíl ^ |
==== Pojetí synchronie ==== | ==== Pojetí synchronie ==== |
| |
Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: | Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: |
| |
[{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] | [{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] |
==== Struktura korpusu a strukturní značky ==== | ==== Struktura korpusu a strukturní značky ==== |
| |
Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována různými atributy (viz přehled v následující tabulce). | Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii). |
| |
^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ | ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ |
| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky | type | běžný odstavec/nadpis | id | jednoznačný identifikátor | | | title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | jednoznačný identifikátor | |
| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky | id | jednoznačný identifikátor | | | | | subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor | | | |
| author | autor dokumentu | author | autor části | | | | | | | author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | | |
| issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | | | issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | |
| publisher | vydavatel | | | | | | | | | publisher | vydavatel | | | | | | | |
| [[seznamy:txtype|txtype]] | textový typ | | | | | | | | | [[seznamy:txtype|txtype]] | textový typ | | | | | | | |
| [[seznamy:genre_group|genre_group]] | skupina oborů/témat | | | | | | | | | [[seznamy:genre_group|genre_group]] | skupina oborů/témat | | | | | | | |
| [[seznamy:genre_group|genre]] | žánr/oblast | | | | | | | | | [[seznamy:genre|genre]] | žánr/oblast | | | | | | | |
| [[seznamy:med|medium]] | médium dokumentu | | | | | | | | | [[seznamy:med|medium]] | médium dokumentu | | | | | | | |
| [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | | | [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
FIXME : //SYN2015: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz | Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz |
</WRAP> | </WRAP> |