Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn2020 [2020/12/27 11:03] – [Složení korpusu SYN2020] michalkren | cnk:syn2020 [2023/10/13 17:02] (aktuální) – [Jak citovat SYN2020] jankrivan |
---|
====== Korpus SYN2020 ====== | ====== Korpus SYN2020 ====== |
| |
Korpus SYN2020 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2020 je tak zaměřen na období 2015–2019. Žádný z textů v SYN2020 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2020 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], stejně jako korpus SYN2015 obsahuje i [[pojmy:syntakticka_analyza|syntaktické značkování]], ve srovnání s ostatními korpusy však přináší celou řadu změn (viz níže). | Korpus SYN2020 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2020 je tak zaměřen na období 2015–2019. Žádný z textů v SYN2020 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2020 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], stejně jako korpus SYN2015 obsahuje i [[pojmy:syntakticka_analyza|syntaktické značkování]], ve srovnání s ostatními korpusy však v anotaci přináší celou řadu změn (viz samostatná sekce níže). |
| |
| |
<WRAP right 35%> | <WRAP round tip 70%> |
| Koncepce SYN2020 se z hlediska složení korpusu, klasifikace textů a pojetí synchronie plně shoduje s korpusem SYN2015. |
| </WRAP> |
| |
| |
| <WRAP right 45%> |
^ <fs medium>Název</fs> ^^ <fs medium>SYN2020</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>SYN2020</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 121 826 797 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 121 826 797 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 726 822 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 726 822 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 910 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 910 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> | 114 211 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] <text> | 114 211 | |
^ ::: ^ Počet odstavců <p> | 2 855 289 | | ^ ::: ^ Počet odstavců <p> | 2 855 289 | |
^ ::: ^ Počet vět <s> | 7 997 312 | | ^ ::: ^ Počet vět <s> | 7 997 312 | |
| |
====== Složení korpusu SYN2020 ====== | ====== Složení korpusu SYN2020 ====== |
| |
<WRAP round tip 70%> | |
Koncepce SYN2020 se z hlediska složení korpusu, klasifikace textů a pojetí synchronie plně shoduje s korpusem SYN2015. | |
</WRAP> | |
| |
==== Reprezentativnost ==== | ==== Reprezentativnost ==== |
* u odborných textů platí požadavek prvního vydání v posledních 25 letech, | * u odborných textů platí požadavek prvního vydání v posledních 25 letech, |
* hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019). | * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019). |
| |
| ==== Podíl originálů a překladů ==== |
| |
| Do korpusu SYN2020 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí **//procento českých originálů v jednotlivých typech textu//**. |
| |
| ^ txtype ^ kategorie ^ ^ |
| | **Beletrie** || **24 %** | |
| | NOV | próza | 17 % | |
| | COL | kratší próza | 50 % | |
| | VER | poezie | 97 % | |
| | SCR | drama | 16 % | |
| | **Oborová literatura** || **72 %** | |
| | SCI | odborná literatura | 79 % | |
| | PRO | profesní literatura | 99 % | |
| | POP | populárně naučná literatura | 62 % | |
| | MEM | memoáry, autobiografie | 40 % | |
| | ADM | administrativa | 100 % | |
| | **Publicistika** || **100 %** | |
| | NEW | tradiční publicistika | 100 % | |
| | LEI | volnočasová publicistika | 100 % | |
| |
| Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento českých originálů ovlivněno. |
| |
===== Struktura korpusu SYN2020 a strukturní značky ===== | ===== Struktura korpusu SYN2020 a strukturní značky ===== |
| |
Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii).\\ | Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. |
V textech používáme také strukturu ''<g/>'', která označuje místa, kde mezi dvěma po sobě následujícími tokeny nebyla mezera (//Rakousko//''<g/>''-''<g/>''//Uhersko//). | |
| |
^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ | ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ |
| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | jednoznačný identifikátor | | | title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor | |
| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor | | | | | subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | |
| author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | | | | author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | | |
| issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | | | issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | |
| biblio | generovaný bibliografický údaj | | | | | | | | | biblio | generovaný bibliografický údaj | | | | | | | |
| id | jednoznačný identifikátor | | | | | | | | | id | jednoznačný identifikátor | | | | | | | |
| |
| Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury: |
| * ''<hi>'': zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu); |
| * ''<lb>'': označení hranice verše v poezii; |
| * ''<head>'' označení nadpisů (pouze tam, kde byly zachyceny ve vstupním formátu); |
| * ''<table/>'' místo, kde byla v původním textu tabulka (nepárová struktura); |
| * ''<ref/>'' místo, kde byl v původním textu webový odkaz (nepárová struktura); |
| * ''<email/>'' místo, kde byla v původním textu e-mailová adresa (nepárová struktura); |
| * ''<graphic/>'' místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura); |
| * ''<geo/>'' místo, kde byly v původním textu GPS souřadnice (nepárová struktura) |
| * ''<g/>'' místo, kde mezi dvěma po sobě následujícími tokeny //nebyla// v textu mezera (nepárová struktura), např. "70''<g/>''. léta". |
| |
===== Anotace SYN2020: změny oproti ostatním korpusům řady SYN ===== | ===== Anotace SYN2020: změny oproti ostatním korpusům řady SYN ===== |
==== Vícenásobná lemmatizace a značkování (agregát) ==== | ==== Vícenásobná lemmatizace a značkování (agregát) ==== |
| |
V korpusu SYN2020 jsou nově zavedena **vícenásobná lemmata a značky** pro zvláštní skupinu slov, tzv. **agregáty**. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (//aby//, //kdyby//), spojení slov s příklonkou //s// (//dělalas//, //viděls//, //komus//, //vždyťs//), spojení předložek s některými zájmeny (//nač//, //očpak//, //zaň//), případně kombinace posledních dvou typů (//načs//). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce [[cnk:syn2020:agregat|agregáty]]. | V korpusu SYN2020 jsou nově zavedena **vícenásobná lemmata a značky** pro zvláštní skupinu slov, tzv. **agregáty**. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (//aby//, //kdyby//), spojení slov s příklonkou //s// (//dělalas//, //viděls//, //komus//, //vždyťs//), spojení předložek s některými zájmeny (//nač//, //očpak//, //zaň//), případně kombinace posledních dvou typů (//načs//). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce [[cnk:syn2020:agregat|agregáty]]. V terminologii standardu [[https://universaldependencies.org/|Universal Dependencies]] se o těchto tokenech mluví jako o víceslovných tokenech, "multiword tokens". |
| |
| ==== Automatická anotace korpusu ==== |
| Celý proces anotace SYN2020 probíhá automaticky. Podrobný postup anotace včetně údajů o míře úspěšnosti je popsán na stránce [[cnk:syn2020:automaticka_anotace|automatická anotace]]. Najdete zde i bibliografické údaje k softwarovým nástrojům a k datům, které byly pro značkování využity; píšete-li článek či jiný akademický text s využitím značkování (lemmat, tagů, verbtagů, syntaktického značkování), je vhodné ocitovat nástroje, které byly použity k vytvoření anotace. |
| |
====== Jak citovat SYN2020 ====== | ====== Jak citovat SYN2020 ====== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Henyš, J. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Křivan, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M. – Truneček, P. – Vítovec, P. – Vondřička, P. – Zasina, A.: //SYN2020: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz | Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //SYN2020: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz |
| |
| Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59. |
| |
Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//, 77 (2), 83–101. ISSN 0037-7031.FIXME | Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145. |
NECHAT?? | |
| |
</WRAP> | </WRAP> |
| |