AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2015 [2015/12/17 18:10] – [Klasifikace textů] Michal Křencnk:syn2015 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty Václav Cvrček (admin)
Řádek 2: Řádek 2:
 ====== Korpus SYN2015 ====== ====== Korpus SYN2015 ======
  
-Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus současné [[pojmy:psany|psané]] češtiny (viz dále revize pojetí synchronnosti, reprezentativnosti a psanosti), obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. +Korpus SYN2015 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti, upravena a rozšířena [[cnk:klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[pojmy:syntakticka_analyza|syntaktické anotace]]. 
  
  
Řádek 10: Řádek 10:
 ^ ::: ^ Počet pozic bez interpunkce |  100 838 568 |   ^ ::: ^ Počet pozic bez interpunkce |  100 838 568 |  
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  1 751 599 |   ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  1 751 599 |  
-^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  776 700 |+^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  777 011 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  3 376 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  3 376 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> |  114 492 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] <text> |  114 492 |
 ^ ::: ^ Počet odstavců <p> |  2 805 065 | ^ ::: ^ Počet odstavců <p> |  2 805 065 |
 ^ ::: ^ Počet vět <s> |  8 004 732 | ^ ::: ^ Počet vět <s> |  8 004 732 |
Řádek 19: Řádek 19:
 ^ ::: ^ Rok zveřejnění |  2015 | ^ ::: ^ Rok zveřejnění |  2015 |
 </WRAP> </WRAP>
- 
 ===== Změny oproti ostatním korpusům řady SYN ===== ===== Změny oproti ostatním korpusům řady SYN =====
  
 ==== Pojetí psanosti v SYN2015 ==== ==== Pojetí psanosti v SYN2015 ====
  
-Pojetí psanosti bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. +Pojetí [[pojmy:psany|psanosti]] bylo pro korpus SYN2015 zúženo pouze na jazyk **tištěný** a **veřejně publikovaný**; korpus tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera. Do korpusu SYN2015 nejsou zahrnuty ani texty publikované pouze na internetu. 
  
-Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''txtype_group''):+Na základě předchozích výzkumů reprezentativnosti a v rámci výše uvedeného zúžení reprezentuje SYN2015 především tři velké textové makrotypy (v terminologii korpusových metainformací řady SYN jde o kategorii ''[[pojmy:txtype_group|txtype_group]]''):
  
   * beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama);   * beletrii (zahrnující krásnou literaturu v nejširším pojetí: prózu, poezii a drama);
Řádek 33: Řádek 32:
 ==== Reprezentativnost SYN2015 ==== ==== Reprezentativnost SYN2015 ====
  
-Oproti předchozím korpusům řady SYN, jejichž pojetí reprezentativnosti vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejpestřejší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci.+Oproti předchozím korpusům řady SYN, jejichž pojetí [[pojmy:reprezentativnost|reprezentativnosti]] vycházelo z výsledků demografického průzkumu, z dnešního pohledu však již zastaralého, je složení textů v korpusu SYN2015 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem. Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci.
  
 ==== Klasifikace textů ==== ==== Klasifikace textů ====
  
-Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''txtype_group'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''txtype''. Nově přidanou úrovní je ''genre_group'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''genre'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]).+Klasifikace textů v SYN2015 je založena na externích, mimotextových kritériích. Při její aktualizaci jsme se snažili zachovat maximální možnou kontinuitu ve vztahu k předešlým korpusům řady SYN. Klasifikace je stejně jako ta předchozí hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]''. Nově přidanou úrovní je ''[[pojmy:genre_group|genre_group]]'', která se však vztahuje pouze k textům oborové literatury (NFC), nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'' (podrobnosti o složení a klasifikaci viz [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]).
  
 ^ Txtype_group ^ Podíl ^ ^ Txtype_group ^ Podíl ^
Řádek 51: Řádek 50:
 ==== Pojetí synchronie ==== ==== Pojetí synchronie ====
  
-Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:+Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:
  
 [{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}] [{{ :cnk:syn2015-roky.png?direct&600|Počet slov podle roku vydání (nemusí být první vydání).}}]
Řádek 63: Řádek 62:
 ==== Poziční anotace a značkování ==== ==== Poziční anotace a značkování ====
  
-Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]).+Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání.
  
 Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]):
Řádek 70: Řádek 69:
   * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky   * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky
   * [[seznamy:p_tag|p_lemma, p_tag, ep_lemma, ep_tag]] – tag a lemma řídícího tokenu   * [[seznamy:p_tag|p_lemma, p_tag, ep_lemma, ep_tag]] – tag a lemma řídícího tokenu
 +  * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu
  
 Kromě těchto značek má korpus SYN2015 nově několik dalších [[pojmy:atributy_pozicni|pozičních atributů]]: Kromě těchto značek má korpus SYN2015 nově několik dalších [[pojmy:atributy_pozicni|pozičních atributů]]:
Řádek 77: Řádek 77:
 ==== Struktura korpusu a strukturní značky ==== ==== Struktura korpusu a strukturní značky ====
  
-Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována různými atributy (viz přehled v následující tabulce). +Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii).
  
 ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^
-| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky | type | běžný odstavec/nadpis | id | jednoznačný identifikátor | +| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | jednoznačný identifikátor | 
-| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky | id | jednoznačný identifikátor |  |  | +| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor |  |  | 
-| author | autor dokumentu | author | autor části |  |  |  |  |+| author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  |
 | issue | vydání (u periodik) | id | jednoznačný identifikátor |  |  |  |  | | issue | vydání (u periodik) | id | jednoznačný identifikátor |  |  |  |  |
 | publisher | vydavatel |  |  |  |  |  |  | | publisher | vydavatel |  |  |  |  |  |  |
Řádek 94: Řádek 94:
 | [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  | | [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  |
 | [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  | | [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  |
-| [[seznamy:genre_group|genre_group]] | skupina oborů/témat |  |  |  |  |  |  | +| [[seznamy:genre_group|genre_group]] | skupina oborů |  |  |  |  |  |  | 
-| [[seznamy:genre_group|genre]] | žánr/oblast |  |  |  |  |  |  | +| [[seznamy:genre|genre]] | tematická oblast |  |  |  |  |  |  | 
-| [[seznamy:med|medium]] | médium dokumentu |  |  |  |  |  |  |+| [[seznamy:med|medium]] | médium |  |  |  |  |  |  |
 | [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  | | [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  |
-| [[seznamy:audience|audience]] | cílový adresát (obecný/dětský čtenář) |  |  |  |  |  |  | +| [[seznamy:audience|audience]] | adresát |  |  |  |  |  |  | 
-| isbnissn | ISBN nebo ISSN |  |  |  |  |  |  |+| isbnissn | ISBN/ISSN |  |  |  |  |  |  |
 | biblio | generovaný bibliografický údaj |  |  |  |  |  |  | | biblio | generovaný bibliografický údaj |  |  |  |  |  |  |
 | id | jednoznačný identifikátor |  |  |  |  |  |  | | id | jednoznačný identifikátor |  |  |  |  |  |  |
Řádek 105: Řádek 105:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-FIXME : //SYN2015: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz+Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P.  – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz 
 + 
 +Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//, 77 (2), 83–101. ISSN 0037-7031. 
 + 
 +Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1.
 </WRAP> </WRAP>
 +