Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn:verze11 [2022/12/20 09:30] – [Publicistika v SYN verze 11] michalkren | cnk:syn:verze11 [2023/10/11 18:08] (aktuální) – [Jak citovat SYN verze 11] jankrivan |
---|
| |
<WRAP right 35%> | <WRAP right 35%> |
^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 9</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 11</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 067 313 960 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 067 313 960 | |
^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 4 719 008 171 | | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 031 922 694 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 10 843 867 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 213 982 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 375 002 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 509 752 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 124 247 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 138 186 | |
^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 17 687 333 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 18 575 347 | |
^ ::: ^ Počet vět | 362 174 692 | | ^ ::: ^ Počet vět | 386 045 094 | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | |
Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2021. | Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2021. |
| |
Korpus SYN verze 11 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_pozicni|poziční]] anotace, která z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 11 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v11<nowiki>"</nowiki>''((V případě textů z průniku korpusu SYN2020 se staršími SYNy je v této položce vyznačen korpus SYN2020.)). | Korpus SYN verze 11 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_pozicni|poziční]] anotace, která z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 11 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v11<nowiki>"</nowiki>''. |
| |
===== Složení korpusu SYN verze 11 ===== | ===== Složení korpusu SYN verze 11 ===== |
[[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 11 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 11 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze10|SYN verze 10]]. | [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 11 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 11 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze10|SYN verze 10]]. |
| |
Shoda struktura a anotace SYN verze 11 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky: | Shoda struktury a anotace SYN verze 11 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky: |
| |
* podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 11 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]]; | * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 11 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]]; |
* [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2020 byla pro SYN verze 11 nahrazena **[[seznamy:frazemy|anotací frazémovou]]**, která odpovídá korpusu SYN verze 10. | * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2020 byla pro SYN verze 11 nahrazena **[[seznamy:frazemy|anotací frazémovou]]**, která odpovídá korpusům SYN verze 9 a 10. |
| |
====== Jak citovat SYN verze 11 ====== | ====== Jak citovat SYN verze 11 ====== |
Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59. | Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59. |
| |
Křivan, J. – Šindlerová, J. (2022): [[http://sas.ujc.cas.cz/archiv.php?art=4508|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145. | Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145. |
| |
</WRAP> | </WRAP> |