AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2020 [2021/03/10 21:02] – [Pojetí synchronie] Michal Křencnk:syn2020 [2023/10/13 17:02] (aktuální) – [Jak citovat SYN2020] Jan Křivan
Řádek 17: Řádek 17:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  726 822 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  726 822 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  3 910 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  3 910 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> |  114 211 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] <text> |  114 211 |
 ^ ::: ^ Počet odstavců <p> |  2 855 289 | ^ ::: ^ Počet odstavců <p> |  2 855 289 |
 ^ ::: ^ Počet vět <s> |  7 997 312 | ^ ::: ^ Počet vět <s> |  7 997 312 |
Řádek 51: Řádek 51:
   * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019).   * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019).
  
-==== Podíl překladů ====+==== Podíl originálů a překladů ====
  
-Do korpusu SYN2O20 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí procento českých originálů v jednotlivých typech textu.+Do korpusu SYN2020 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí **//procento českých originálů v jednotlivých typech textu//**.
  
 ^  txtype  ^  kategorie  ^    ^ ^  txtype  ^  kategorie  ^    ^
-| **Beletrie** (FIC) ||  24 % |+| **Beletrie** ||  **24 %** |
 | NOV | próza |  17 % | | NOV | próza |  17 % |
 | COL | kratší próza |  50 % | | COL | kratší próza |  50 % |
 | VER | poezie |  97 % | | VER | poezie |  97 % |
 | SCR | drama |  16 % | | SCR | drama |  16 % |
-| **Oborová literatura** (NFC) ||  72 % |+| **Oborová literatura** ||  **72 %** |
 | SCI | odborná literatura |  79 % | | SCI | odborná literatura |  79 % |
 | PRO | profesní literatura |  99 % | | PRO | profesní literatura |  99 % |
Řádek 67: Řádek 67:
 | MEM | memoáry, autobiografie |  40 % | | MEM | memoáry, autobiografie |  40 % |
 | ADM | administrativa |  100 % | | ADM | administrativa |  100 % |
-| **Publicistika** (NMG) ||  100 % |+| **Publicistika** ||  **100 %** |
 | NEW | tradiční publicistika |  100 % | | NEW | tradiční publicistika |  100 % |
 | LEI | volnočasová publicistika |  100 % | | LEI | volnočasová publicistika |  100 % |
  
-Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není v našich silách to pro každý jednotlivý článek v nich ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik tím může být uváděné procento originálů ovlivněno.+Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento českých originálů ovlivněno.
  
 ===== Struktura korpusu SYN2020 a strukturní značky ===== ===== Struktura korpusu SYN2020 a strukturní značky =====
Řádek 78: Řádek 78:
  
 ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ ^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^
-| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type běžný odstavec/nadpis | id | jednoznačný identifikátor | +| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | id jednoznačný identifikátor | id | jednoznačný identifikátor | 
-| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor |  |  |+| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | 
 | author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  | | author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  |
 | issue | vydání (u periodik) | id | jednoznačný identifikátor |  |  |  |  | | issue | vydání (u periodik) | id | jednoznačný identifikátor |  |  |  |  |
Řádek 151: Řádek 151:
 <WRAP round tip 70%> <WRAP round tip 70%>
 Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //SYN2020: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //SYN2020: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
 +
 +Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.
 +
 +Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145.
 +
 </WRAP> </WRAP>