AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze13 [2024/12/23 13:55] – [Korpus SYN verze 13] michalkrencnk:syn:verze13 [2026/01/22 16:20] (aktuální) – [Struktura a anotace korpusu SYN verze 13] krivan
Řádek 4: Řádek 4:
 <WRAP right 35%> <WRAP right 35%>
 ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 13</fs> ^ ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 13</fs> ^
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  6 238 142 297 |   +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  6 400 899 055 |   
-^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  5 174 701 189 |   +^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  5 310 635 949 |   
-^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  11 384 712 |   +^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  11 522 926 |   
-^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 604 956 +^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 655 932 
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  144 755 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  151 076 
-^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  18 965 216 +^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  19 363 730 
-^ ::: ^ Počet vět |  398 423 123 |+^ ::: ^ Počet vět |  408 749 819 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
 ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE (převažuje [[seznamy:txtype|publicistika]]) |   ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE (převažuje [[seznamy:txtype|publicistika]]) |  
-^ ::: ^ Rok zveřejnění |  2023 |+^ ::: ^ Rok zveřejnění |  2024 |
 </WRAP> </WRAP>
  
Řádek 45: Řádek 45:
 ====== Struktura a anotace korpusu SYN verze 13 ====== ====== Struktura a anotace korpusu SYN verze 13 ======
  
-[[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 13 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 13 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze12|SYN verze 12]].+[[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 13 je shodná se SYN2020. Morfologické značkovánílemmatizace a tokenizace korpusu probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. SYN verze 13 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze12|SYN verze 12]].
  
 Shoda struktury a anotace SYN verze 13 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky: Shoda struktury a anotace SYN verze 13 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky:
Řádek 55: Řádek 55:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //Korpus SYN, verze 13 ze 29. 12. 2024//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: https://www.korpus.cz+Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //Korpus SYN, verze 13 z 27. 12. 2024//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: https://www.korpus.cz
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.