| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:syn2025 [2026/01/15 13:46] – michalkren | cnk:syn2025 [2026/01/19 10:11] (aktuální) – [Anotace SYN2025] tomasjelinek |
|---|
| |
| <WRAP round tip 70%> | <WRAP round tip 70%> |
| Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou popsány níže. | Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou označeny v této [[cnk:klasifikace_textu_syn2015#podily_jednotlivych_typu_textu|tabulce]]. |
| </WRAP> | </WRAP> |
| |
| |
| |
| <WRAP round tip 70%> | **Změny ve struktuře SYN2025 oproti předchozím korpusům:** |
| Změny ve struktuře SYN2025 oproti předchozím korpusům: | |
| * poznámky pod čarou (''<note>'') se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury ''<text>''; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna; | * poznámky pod čarou (''<note>'') se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury ''<text>''; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna; |
| * nadpisy již nejsou označeny zvláštní strukturou ''<head>'', ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu ''type'' struktury ''<p>''; ten odlišuje nadpis (''<p type="head">'') od běžného textu (''<p type="normal">''). | * nadpisy již nejsou označeny zvláštní strukturou ''<head>'', ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu ''type'' struktury ''<p>''; ten odlišuje nadpis (''<p type="head">'') od běžného textu (''<p type="normal">''). |
| </WRAP> | |
| |
| ===== Anotace SYN2025 ===== | ===== Anotace SYN2025 ===== |
| |
| Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]], který byl aplikován již na korpus SYN2020. | Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]], který byl aplikován již na korpus SYN2020. Tokenům jsou přiřazeny [[pojmy:atributy_pozicni|poziční atributy]]: [[pojmy:lemma|lemma]] a sublemma, [[pojmy:tag|tag]], [[pojmy:verbtag|verbtag]], pos a case.\\ |
| | Kromě toho je korpus SYN2025 (stejně jako korpus SYN2020) opatřen [[pojmy:syntakticka_analyza|syntaktickým značkováním]] s řadou [[pojmy:atributy_pozicni|pozičních atributů]] přiřazených tokenům, např. [[seznamy:parent|parent]], [[seznamy:afun|afun]], [[seznamy:p_tag|p_tag]] (viz [[seznamy:syntakticke_znacky]]). |
| |
| ====== Jak citovat SYN2025 ====== | ====== Jak citovat SYN2025 ====== |