Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:syn2015 [2015/12/17 18:31] – [Struktura korpusu a strukturní značky] michalkren | cnk:syn2015 [2015/12/21 16:24] – [Struktura korpusu a strukturní značky] v souladu s definitivními termíny tak, jak jsou v Seznamech michalskrabal |
---|
====== Korpus SYN2015 ====== | ====== Korpus SYN2015 ====== |
| |
Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus současné [[pojmy:psany|psané]] češtiny (viz dále revize pojetí synchronnosti, reprezentativnosti a psanosti), obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. | Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. |
| |
| |
^ ::: ^ Počet pozic bez interpunkce | 100 838 568 | | ^ ::: ^ Počet pozic bez interpunkce | 100 838 568 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 751 599 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 751 599 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 776 700 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 777 011 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 376 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 376 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> | 114 492 | | ^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> | 114 492 | |
^ ::: ^ Rok zveřejnění | 2015 | | ^ ::: ^ Rok zveřejnění | 2015 | |
</WRAP> | </WRAP> |
| |
===== Změny oproti ostatním korpusům řady SYN ===== | ===== Změny oproti ostatním korpusům řady SYN ===== |
| |
==== Pojetí psanosti v SYN2015 ==== | ==== Pojetí psanosti v SYN2015 ==== |
| |
Pojetí psanosti bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. | Pojetí [[pojmy:psany|psanosti]] bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. |
| |
Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''txtype_group''): | Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''[[pojmy:txtype_group|txtype_group]]''): |
| |
* beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama); | * beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama); |
==== Reprezentativnost SYN2015 ==== | ==== Reprezentativnost SYN2015 ==== |
| |
Oproti předchozím korpusům řady SYN, jejichž pojetí reprezentativnosti vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejpestřejší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. | Oproti předchozím korpusům řady SYN, jejichž pojetí [[pojmy:reprezentativnost|reprezentativnosti]] vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. |
| |
==== Klasifikace textů ==== | ==== Klasifikace textů ==== |
| |
Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''txtype_group'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''txtype''. Nově přidanou úrovní je ''genre_group'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''genre'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]). | Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]''. Nově přidanou úrovní je ''[[pojmy:genre_group|genre_group]]'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]). |
| |
^ Txtype_group ^ Podíl ^ | ^ Txtype_group ^ Podíl ^ |
==== Pojetí synchronie ==== | ==== Pojetí synchronie ==== |
| |
Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: | Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: |
| |
[{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] | [{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] |
==== Struktura korpusu a strukturní značky ==== | ==== Struktura korpusu a strukturní značky ==== |
| |
Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury <hi> (zvýraznění a řezy písma) a <lb> (označení hranice verše v poezii). | Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii). |
| |
^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ | ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ |
| [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | | | [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | |
| [[seznamy:txtype|txtype]] | textový typ | | | | | | | | | [[seznamy:txtype|txtype]] | textový typ | | | | | | | |
| [[seznamy:genre_group|genre_group]] | skupina oborů/témat | | | | | | | | | [[seznamy:genre_group|genre_group]] | skupina oborů | | | | | | | |
| [[seznamy:genre_group|genre]] | žánr/oblast | | | | | | | | | [[seznamy:genre|genre]] | tematická oblast | | | | | | | |
| [[seznamy:med|medium]] | médium dokumentu | | | | | | | | | [[seznamy:med|medium]] | médium | | | | | | | |
| [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | | | [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | |
| [[seznamy:audience|audience]] | cílový adresát (obecný/dětský čtenář) | | | | | | | | | [[seznamy:audience|audience]] | adresát | | | | | | | |
| isbnissn | ISBN nebo ISSN | | | | | | | | | isbnissn | ISBN/ISSN | | | | | | | |
| biblio | generovaný bibliografický údaj | | | | | | | | | biblio | generovaný bibliografický údaj | | | | | | | |
| id | jednoznačný identifikátor | | | | | | | | | id | jednoznačný identifikátor | | | | | | | |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
FIXME : //SYN2015: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz | Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz |
</WRAP> | </WRAP> |