Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn2015 [2015/12/17 18:31] – [Struktura korpusu a strukturní značky] michalkren | cnk:syn2015 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty cvrcek |
---|
====== Korpus SYN2015 ====== | ====== Korpus SYN2015 ====== |
| |
Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus současné [[pojmy:psany|psané]] češtiny (viz dále revize pojetí synchronnosti, reprezentativnosti a psanosti), obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. | Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[pojmy:syntakticka_analyza|syntaktické anotace]]. |
| |
| |
^ ::: ^ Počet pozic bez interpunkce | 100 838 568 | | ^ ::: ^ Počet pozic bez interpunkce | 100 838 568 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 751 599 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 751 599 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 776 700 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 777 011 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 376 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 376 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> | 114 492 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] <text> | 114 492 | |
^ ::: ^ Počet odstavců <p> | 2 805 065 | | ^ ::: ^ Počet odstavců <p> | 2 805 065 | |
^ ::: ^ Počet vět <s> | 8 004 732 | | ^ ::: ^ Počet vět <s> | 8 004 732 | |
^ ::: ^ Rok zveřejnění | 2015 | | ^ ::: ^ Rok zveřejnění | 2015 | |
</WRAP> | </WRAP> |
| |
===== Změny oproti ostatním korpusům řady SYN ===== | ===== Změny oproti ostatním korpusům řady SYN ===== |
| |
==== Pojetí psanosti v SYN2015 ==== | ==== Pojetí psanosti v SYN2015 ==== |
| |
Pojetí psanosti bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. | Pojetí [[pojmy:psany|psanosti]] bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. |
| |
Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''txtype_group''): | Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''[[pojmy:txtype_group|txtype_group]]''): |
| |
* beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama); | * beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama); |
==== Reprezentativnost SYN2015 ==== | ==== Reprezentativnost SYN2015 ==== |
| |
Oproti předchozím korpusům řady SYN, jejichž pojetí reprezentativnosti vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejpestřejší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. | Oproti předchozím korpusům řady SYN, jejichž pojetí [[pojmy:reprezentativnost|reprezentativnosti]] vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. |
| |
==== Klasifikace textů ==== | ==== Klasifikace textů ==== |
| |
Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''txtype_group'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''txtype''. Nově přidanou úrovní je ''genre_group'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''genre'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]). | Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]''. Nově přidanou úrovní je ''[[pojmy:genre_group|genre_group]]'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]). |
| |
^ Txtype_group ^ Podíl ^ | ^ Txtype_group ^ Podíl ^ |
==== Pojetí synchronie ==== | ==== Pojetí synchronie ==== |
| |
Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: | Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: |
| |
[{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] | [{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] |
==== Poziční anotace a značkování ==== | ==== Poziční anotace a značkování ==== |
| |
Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). | Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání. |
| |
Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): | Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): |
==== Struktura korpusu a strukturní značky ==== | ==== Struktura korpusu a strukturní značky ==== |
| |
Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury <hi> (zvýraznění a řezy písma) a <lb> (označení hranice verše v poezii). | Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii). |
| |
^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ | ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ |
| [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | | | [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | |
| [[seznamy:txtype|txtype]] | textový typ | | | | | | | | | [[seznamy:txtype|txtype]] | textový typ | | | | | | | |
| [[seznamy:genre_group|genre_group]] | skupina oborů/témat | | | | | | | | | [[seznamy:genre_group|genre_group]] | skupina oborů | | | | | | | |
| [[seznamy:genre_group|genre]] | žánr/oblast | | | | | | | | | [[seznamy:genre|genre]] | tematická oblast | | | | | | | |
| [[seznamy:med|medium]] | médium dokumentu | | | | | | | | | [[seznamy:med|medium]] | médium | | | | | | | |
| [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | | | [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | |
| [[seznamy:audience|audience]] | cílový adresát (obecný/dětský čtenář) | | | | | | | | | [[seznamy:audience|audience]] | adresát | | | | | | | |
| isbnissn | ISBN nebo ISSN | | | | | | | | | isbnissn | ISBN/ISSN | | | | | | | |
| biblio | generovaný bibliografický údaj | | | | | | | | | biblio | generovaný bibliografický údaj | | | | | | | |
| id | jednoznačný identifikátor | | | | | | | | | id | jednoznačný identifikátor | | | | | | | |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
FIXME : //SYN2015: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz | Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz |
| |
| Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//, 77 (2), 83–101. ISSN 0037-7031. |
| |
| Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1. |
</WRAP> | </WRAP> |
| |