Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn:verze13 [2024/12/23 13:53] – [Publicistika v SYN verze 13] michalkren | cnk:syn:verze13 [2024/12/27 17:47] (aktuální) – [Korpus SYN verze 13] michalkren |
---|
<WRAP right 35%> | <WRAP right 35%> |
^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 13</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 13</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 238 142 297 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 400 899 055 | |
^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 174 701 189 | | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 310 635 949 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 384 712 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 522 926 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 604 956 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 655 932 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 144 755 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 151 076 | |
^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 18 965 216 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 19 363 730 | |
^ ::: ^ Počet vět | 398 423 123 | | ^ ::: ^ Počet vět | 408 749 819 | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | |
^ ::: ^ Rok zveřejnění | 2023 | | ^ ::: ^ Rok zveřejnění | 2024 | |
</WRAP> | </WRAP> |
| |
Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 13 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]; kromě nich je však jeho součástí také publicistika z let 2010–2022, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]] až [[cnk:syn:verze12|verze 12]], a také **dosud nezveřejněná publicistika z roku 2023** v objemu téměř 150 mil. slov. | Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 13 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]; kromě nich je však jeho součástí také publicistika z let 2010–2022, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]] až [[cnk:syn:verze12|verze 12]], a také **dosud nezveřejněná publicistika z roku 2023** v objemu přesahujícím 100 mil. slov. |
| |
Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2023. | Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2023. |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //Korpus SYN, verze 13 ze 29. 12. 2024//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: https://www.korpus.cz | Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //Korpus SYN, verze 13 z 27. 12. 2024//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: https://www.korpus.cz |
| |
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. | Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. |