Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn2020 [2021/03/10 21:13] – [Podíl překladů] michalkren | cnk:syn2020 [2023/10/13 17:02] (aktuální) – [Jak citovat SYN2020] jankrivan |
---|
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 726 822 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 726 822 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 910 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 3 910 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> | 114 211 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] <text> | 114 211 | |
^ ::: ^ Počet odstavců <p> | 2 855 289 | | ^ ::: ^ Počet odstavců <p> | 2 855 289 | |
^ ::: ^ Počet vět <s> | 7 997 312 | | ^ ::: ^ Počet vět <s> | 7 997 312 | |
* hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019). | * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019). |
| |
==== Podíl překladů ==== | ==== Podíl originálů a překladů ==== |
| |
Do korpusu SYN2O20 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí **//procento českých originálů v jednotlivých typech textu//**. | Do korpusu SYN2020 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí **//procento českých originálů v jednotlivých typech textu//**. |
| |
^ txtype ^ kategorie ^ ^ | ^ txtype ^ kategorie ^ ^ |
| LEI | volnočasová publicistika | 100 % | | | LEI | volnočasová publicistika | 100 % | |
| |
Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není v našich silách to pro každý jednotlivý článek v nich ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento originálů ovlivněno. | Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento českých originálů ovlivněno. |
| |
===== Struktura korpusu SYN2020 a strukturní značky ===== | ===== Struktura korpusu SYN2020 a strukturní značky ===== |
| |
^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ | ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ |
| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | jednoznačný identifikátor | | | title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor | |
| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor | | | | | subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | |
| author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | | | | author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | | |
| issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | | | issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //SYN2020: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz | Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //SYN2020: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz |
| |
| Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59. |
| |
| Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145. |
| |
</WRAP> | </WRAP> |
| |