AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze11 [2022/12/20 09:28] – [Korpus SYN verze 11] michalkrencnk:syn:verze11 [2023/10/11 18:08] (aktuální) – [Jak citovat SYN verze 11] jankrivan
Řádek 3: Řádek 3:
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 9</fs> ^+^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 11</fs> ^
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  6 067 313 960 |   ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  6 067 313 960 |  
-^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  4 719 008 171 |   +^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  5 031 922 694 |   
-^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  10 843 867 |   +^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  11 213 982 |   
-^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 375 002 +^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 509 752 
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  124 247 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  138 186 
-^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  17 687 333 +^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  18 575 347 
-^ ::: ^ Počet vět |  362 174 692 |+^ ::: ^ Počet vět |  386 045 094 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
 ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE (převažuje [[seznamy:txtype|publicistika]]) |   ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE (převažuje [[seznamy:txtype|publicistika]]) |  
Řádek 20: Řádek 20:
 Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2021. Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2021.
  
-Korpus SYN verze 11 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_pozicni|poziční]] anotace, která z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 11 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v11<nowiki>"</nowiki>''((V případě textů z průniku korpusu SYN2020 se staršími SYNy je v této položce vyznačen korpus SYN2020.)).+Korpus SYN verze 11 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_pozicni|poziční]] anotace, která z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 11 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v11<nowiki>"</nowiki>''.
  
 ===== Složení korpusu SYN verze 11 ===== ===== Složení korpusu SYN verze 11 =====
Řádek 37: Řádek 37:
 ==== Publicistika v SYN verze 11 ==== ==== Publicistika v SYN verze 11 ====
  
-Složení publicistické části korpusu SYN verze pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2021; celkový počet publicistických titulů se blíží 200. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. +Složení publicistické části korpusu SYN verze 11 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2021; celkový počet publicistických titulů se blíží 200. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. 
  
 [{{:cnk:syn:slozeni_syn_v11.png?400|Složení korpusu SYN verze 11}}] [{{:cnk:syn:slozeni_syn_v11.png?400|Složení korpusu SYN verze 11}}]
Řádek 47: Řádek 47:
 [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 11 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 11 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze10|SYN verze 10]]. [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 11 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 11 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze10|SYN verze 10]].
  
-Shoda struktura a anotace SYN verze 11 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky:+Shoda struktury a anotace SYN verze 11 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky:
  
   * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 11 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]];   * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 11 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]];
-  * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2020 byla pro SYN verze 11 nahrazena **[[seznamy:frazemy|anotací frazémovou]]**, která odpovídá korpusu SYN verze 10.+  * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2020 byla pro SYN verze 11 nahrazena **[[seznamy:frazemy|anotací frazémovou]]**, která odpovídá korpusům SYN verze 9 a 10.
  
 ====== Jak citovat SYN verze 11 ====== ====== Jak citovat SYN verze 11 ======
Řádek 61: Řádek 61:
 Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59. Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.
  
-Křivan, J. – Šindlerová, J. (2022): [[http://sas.ujc.cas.cz/archiv.php?art=4508|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145.+Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145.
  
 </WRAP> </WRAP>