AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2025 [2026/01/12 21:48] – [Struktura korpusu SYN2025 a strukturní značky] michalkrencnk:syn2025 [2026/01/19 10:11] (aktuální) – [Anotace SYN2025] tomasjelinek
Řádek 6: Řádek 6:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou popsány níže.+Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou označeny v této [[cnk:klasifikace_textu_syn2015#podily_jednotlivych_typu_textu|tabulce]].
 </WRAP> </WRAP>
  
Řádek 50: Řádek 50:
   * u odborných textů platí požadavek prvního vydání v posledních 25 letech,   * u odborných textů platí požadavek prvního vydání v posledních 25 letech,
   * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2025 je to období let 2020 až 2024).   * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2025 je to období let 2020 až 2024).
- 
-==== Podíl originálů a překladů ==== 
- 
-Do korpusu SYN2025 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí **//procento českých originálů v jednotlivých typech textu//**. 
- 
-<WRAP round tip 70%> 
-PŘEPOČÍTAT TABULKU! 
-</WRAP> 
- 
-^  txtype  ^  kategorie  ^    ^ 
-| **Beletrie** ||  **24 %** | 
-| NOV | próza |  17 % | 
-| COL | kratší próza |  50 % | 
-| VER | poezie |  97 % | 
-| SCR | drama |  16 % | 
-| **Oborová literatura** ||  **72 %** | 
-| SCI | odborná literatura |  79 % | 
-| PRO | profesní literatura |  99 % | 
-| POP | populárně naučná literatura |  62 % | 
-| MEM | memoáry, autobiografie |  40 % | 
-| ADM | administrativa |  100 % | 
-| **Publicistika** ||  **100 %** | 
-| NEW | tradiční publicistika |  100 % | 
-| LEI | volnočasová publicistika |  100 % | 
- 
-Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento českých originálů ovlivněno. 
  
 ===== Struktura korpusu SYN2025 a strukturní značky ===== ===== Struktura korpusu SYN2025 a strukturní značky =====
Řádek 117: Řádek 91:
  
  
-<WRAP round tip 70%> +**Změny ve struktuře SYN2025 oproti předchozím korpusům:**
-Změny ve struktuře SYN2025 oproti předchozím korpusům:+
   * poznámky pod čarou (''<note>'') se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury ''<text>''; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna;   * poznámky pod čarou (''<note>'') se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury ''<text>''; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna;
   * nadpisy již nejsou označeny zvláštní strukturou ''<head>'', ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu ''type'' struktury ''<p>''; ten odlišuje nadpis (''<p type="head">'') od běžného textu (''<p type="normal">'').   * nadpisy již nejsou označeny zvláštní strukturou ''<head>'', ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu ''type'' struktury ''<p>''; ten odlišuje nadpis (''<p type="head">'') od běžného textu (''<p type="normal">'').
-</WRAP> 
  
-===== Anotace SYN2020: změny oproti ostatním korpusům řady SYN =====+===== Anotace SYN2025 =====
  
-==== Tokenizace ==== +Morfologické značkovánílemmatizace tokenizace korpusu SYN2025 probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]], který byl aplikován již na korpus SYN2020Tokenůjsou přiřazeny [[pojmy:atributy_pozicni|poziční atributy]]: [[pojmy:lemma|lemma]] a sublemma, [[pojmy:tag|tag]][[pojmy:verbtag|verbtag]]pos case.\\ 
- +Kromě toho je korpus SYN2025 (stejně jako korpus SYN2020opatřen [[pojmy:syntakticka_analyza|syntaktickým značkováním]] s řadou [[pojmy:atributy_pozicni|pozičních atributů]] přiřazených tokenůmnapř. [[seznamy:parent|parent]][[seznamy:afun|afun]], [[seznamy:p_tag|p_tag]] (viz [[seznamy:syntakticke_znacky]]).
-V dosavadních korpusech řady SYN byly téměř všechny kombinace alfabetických, numerických a interpunčních znakůkteré byly v originálních textech psány bez mezery, považovány za jeden token. Zvlášť byly tokenizovány pouze interpunkční znaky na hranicích slov (//řekl , že//některé další kombinace, např. spojovník před příklonkou //li// (//mohu - li//).   +
- +
-V SYN2020 je přístup opačný: numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura ''<g/>'', která tak uchovává informaci o toku původního textu), pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov (dohromady se tokenizují např. slova jako //česko-německý//, //wi-fi//, //r’n’b//, //Jang-c’-ťiang//, //CO2//, //12letý//). Tyto principy jsou představeny na stránce [[cnk:syn2020:tokenizace|tokenizace]]+
- +
-==== Lemmatizace ==== +
- +
-Zásadní změnou v korpusu SYN2020 je zavedení tzv. **dvojúrovňové lemmatizace**: každý tvar má nyní vedle atributu **lemma** přiřazen i atribut **sublemma**. Zatímco lemma sdružuje v souladu s dřívějšími korpusy řady SYN i více variant jednoho slova (např. lemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//)sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//, sublemma //filosofie// jen tvary s kořenem //filosof//). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (napřlemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//). +
- +
-Jako **sublemmata** jsou řešeny různé typy variant (např. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, propriální //Robert/Róbert/Roberto//, //Atény/Athény//) a jejich pomocí jsou odlišeny některé specifické skupiny tvarů, které jsou tradičně zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií //černý/nečerný//, //hezky/nehezky//, jmenné tvary adjektiv //mladý/mlád//, supletivní tvary //dobře/lépe/líp//, //člověk/lidé//). +
- +
-V souvislosti s těmito změnami byla oproti předchozím korpusům řady SYN lemmatizace významně zpřesněna, řada lemmat byla opravena a dalších několik desítek tisíc lemmat je v korpusu SYN2020 nově rozpoznáno. Podrobný popis změn je uveden na stránce [[cnk:syn2020:lemmatizace]]+
- +
-==== Morfologické značkování (tag) ==== +
- +
-Morfologická značka (tag) má počínaje korpusem SYN2020 **15 pozic** (místo dřívějších 16 pozic). Značení **slovesného vidu** se přesouvá ze zrušené 16. pozice na původně neobsazenou 13. pozicijinak je struktura tagu totožná s dosavadními korpusy řady SYN. +
- +
-K samotným **změnám ve značení** dochází na třech pozicích v tagu. Na **1. pozici** (slovní druh) se nově rozlišují hodnoty **F** (cizí slovo)**B** (zkratka) **S** (segment)Zároveň bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv). Na **2. pozici** (detailní určení slovního druhu) byly v souvislosti s novými slovními druhy zavedeny nové značky a naopak jiné byly zrušeny. Komplexně bylo upraveno členění číslovek (např. hodnota **z** se nově používá pro číslovky //sto//, //tisíc//, //milion// původně značené jako substantivaa také vznikla značka **0** pro identifikaci nekoncové interpunkce. K jedné změně dochází na **15. pozici** (varianta): číslo **8** (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu.  +
- +
-Spolehlivost automatické lemmatizace a automatického značkování korpusu SYN2020 je znatelně vyšší než u předcházejících korpusů řady SYN. Podrobný přehled změn je uveden na stránce [[cnk:syn2020:tag|morfologické značkování]]+
- +
-==== Značkování sloves (verbtag) ==== +
- +
-Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (//viděl jsem//), nebo jednoduchý (//vidím//). Ve verbtagu se jednak odlišuje pomocné sloveso od plnovýznamového, jednak jsou u každého plnovýznamového tvaru slovesa dále uvedeny kategorie způsobu, slovesného rodu, osoby, čísla a času (platné pro celý slovesný tvar). Slovesná značka je uvedena u každého tokenu v korpusu, hodnoty nabývá ale jen u sloves (a jednou výjimkou u deverbativních adjektiv). Kompletní představení je na stránce [[cnk:syn2020:verbtag]]+
- +
-==== Vícenásobná lemmatizace a značkování (agregát) ==== +
- +
-V korpusu SYN2020 jsou nově zavedena **vícenásobná lemmata a značky** pro zvláštní skupinu slov, tzv. **agregáty**. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (//aby//, //kdyby//), spojení slov s příklonkou //s// (//dělalas////viděls//, //komus//, //vždyťs//), spojení předložek s některými zájmeny (//nač//, //očpak//, //zaň//), případně kombinace posledních dvou typů (//načs//)U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce [[cnk:syn2020:agregat|agregáty]]. V terminologii standardu [[https://universaldependencies.org/|Universal Dependencies]] se o těchto tokenech mluví jako o víceslovných tokenech"multiword tokens"+
- +
-==== Automatická anotace korpusu ==== +
-Celý proces anotace SYN2020 probíhá automaticky. Podrobný postup anotace včetně údajů o míře úspěšnosti je popsán na stránce [[cnk:syn2020:automaticka_anotace|automatická anotace]]. Najdete zde i bibliografické údaje k softwarovým nástrojům a k datům, které byly pro značkování využity; píšete-li článek či jiný akademický text s využitím značkování (lemmat, tagů, verbtagů, syntaktického značkování), je vhodné ocitovat nástroje, které byly použity k vytvoření anotace.+
  
 ====== Jak citovat SYN2025 ====== ====== Jak citovat SYN2025 ======
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Škrabal, M.: //SYN2025: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz+Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Marklová, A. – Petkevič, V. – Skoumalová, H. – Škrabal, M.: //SYN2025: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz 
 + 
 +Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//, 77 (2), 83–101.
  
 Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59. Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.
  
-Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 832/2022, 122–145.+Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83 (2), 122–145.
  
 </WRAP> </WRAP>