AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze10 [2022/03/03 15:29] – [Struktura a anotace korpusu SYN verze 10] michalkrencnk:syn:verze10 [2023/10/11 19:58] (aktuální) – [Jak citovat SYN verze 10] jankrivan
Řádek 9: Řádek 9:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 432 413 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 432 413 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  131 383 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  131 383 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] |  18 158 945 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  18 158 945 |
 ^ ::: ^ Počet vět |  374 658 105 | ^ ::: ^ Počet vět |  374 658 105 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
Řádek 16: Řádek 16:
 </WRAP> </WRAP>
  
-Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 10 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]; kromě nich je však jeho součástí také publicistika z let 2010–2019, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]], [[cnk:syn:verze6|verze 6]], [[cnk:syn:verze7|verze 7]], [[cnk:syn:verze8|verze 8]], [[cnk:syn:verze9|verze 9]] a také **dosud nezveřejněná publicistika z roku 2020** v objemu přes 150 mil. slov.+Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 10 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]; kromě nich je však jeho součástí také publicistika z let 2010–2019, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]], [[cnk:syn:verze6|verze 6]], [[cnk:syn:verze7|verze 7]], [[cnk:syn:verze8|verze 8]], [[cnk:syn:verze9|verze 9]] a také **dosud nezveřejněná publicistika z roku 2020** v objemu přes 150 mil. slov (až po zveřejnění celého korpusu jsme však zjistili, že část dat publicistiky z roku 2020 byla nedopatřením nesprávně lemmatizována, podrobněji viz níže).
  
 Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2020. Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2020.
  
-Korpus SYN verze 10 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_pozicni|poziční]] anotace, která z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 10 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v10<nowiki>"</nowiki>''.+Korpus SYN verze 10 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_pozicni|poziční]] anotace, která z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 10 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v10<nowiki>"</nowiki>''. Právě při přípravě publicistických dat z roku 2020 (''syn=<nowiki>"</nowiki>v10<nowiki>"</nowiki>'') však došlo k nedopatření: tvary s variantními sublemmaty (např. tvar //voknem//) zde dostávají namísto zvláštního lemmatu (//okno//) lemma totožné se sublemmatem (//vokno//). Chyba ovlivnila asi 1,8 % pozic této části korpusu. Při práci s korpusem SYN verze 10, při které záleží na přesných statistikách, proto doporučujeme subkorpus odpovídají podmínce ''syn=<nowiki>"</nowiki>v10<nowiki>"</nowiki>'' z vyhledávání vyloučit.
  
 ===== Složení korpusu SYN verze 10 ===== ===== Složení korpusu SYN verze 10 =====
Řádek 47: Řádek 47:
 [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 10 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 10 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze9|SYN verze 9]]. [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 10 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 10 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze9|SYN verze 9]].
  
-Shoda struktura a anotace SYN verze 10 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky:+Shoda struktury a anotace SYN verze 10 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky:
  
-  * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 10 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]];+  * podobně jako v jiných korpusech řady SYN je i v korpusu SYN verze 10 navíc atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]];
   * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2020 byla pro SYN verze 10 nahrazena **[[seznamy:frazemy|anotací frazémovou]]**, která odpovídá korpusu SYN verze 9.   * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2020 byla pro SYN verze 10 nahrazena **[[seznamy:frazemy|anotací frazémovou]]**, která odpovídá korpusu SYN verze 9.
  
Řádek 55: Řádek 55:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //Korpus SYN, verze 10 z 22. 2. 2022//. Ústav Českého národního korpusu FF UK, Praha 2022. Dostupný z WWW: https://www.korpus.cz+Křen, M. – Cvrček, V. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //Korpus SYN, verze 10 z 22. 2. 2022//. Ústav Českého národního korpusu FF UK, Praha 2022. Dostupný z WWW: https://www.korpus.cz
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
 +
 +Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.
 +
 +Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145.
 +
 </WRAP> </WRAP>