Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| cnk:syn2025 [2026/01/12 22:11] – [Jak citovat SYN2025] michalkren | cnk:syn2025 [2026/01/19 10:11] (aktuální) – [Anotace SYN2025] tomasjelinek | ||
|---|---|---|---|
| Řádek 6: | Řádek 6: | ||
| <WRAP round tip 70%> | <WRAP round tip 70%> | ||
| - | Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou popsány níže. | + | Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou označeny v této [[cnk: |
| </ | </ | ||
| Řádek 50: | Řádek 50: | ||
| * u odborných textů platí požadavek prvního vydání v posledních 25 letech, | * u odborných textů platí požadavek prvního vydání v posledních 25 letech, | ||
| * hranice synchronie publicistických titulů zůstává nezměněna, | * hranice synchronie publicistických titulů zůstává nezměněna, | ||
| - | |||
| - | ==== Podíl originálů a překladů ==== | ||
| - | |||
| - | Do korpusu SYN2025 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí **// | ||
| - | |||
| - | <WRAP round tip 70%> | ||
| - | PŘEPOČÍTAT TABULKU! | ||
| - | </ | ||
| - | |||
| - | ^ txtype | ||
| - | | **Beletrie** || **24 %** | | ||
| - | | NOV | próza | 17 % | | ||
| - | | COL | kratší próza | 50 % | | ||
| - | | VER | poezie | 97 % | | ||
| - | | SCR | drama | 16 % | | ||
| - | | **Oborová literatura** || **72 %** | | ||
| - | | SCI | odborná literatura | 79 % | | ||
| - | | PRO | profesní literatura | 99 % | | ||
| - | | POP | populárně naučná literatura | 62 % | | ||
| - | | MEM | memoáry, autobiografie | 40 % | | ||
| - | | ADM | administrativa | 100 % | | ||
| - | | **Publicistika** || **100 %** | | ||
| - | | NEW | tradiční publicistika | 100 % | | ||
| - | | LEI | volnočasová publicistika | 100 % | | ||
| - | |||
| - | Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, | ||
| ===== Struktura korpusu SYN2025 a strukturní značky ===== | ===== Struktura korpusu SYN2025 a strukturní značky ===== | ||
| Řádek 117: | Řádek 91: | ||
| - | <WRAP round tip 70%> | + | **Změny ve struktuře SYN2025 oproti předchozím korpusům:** |
| - | Změny ve struktuře SYN2025 oproti předchozím korpusům: | + | |
| * poznámky pod čarou (''< | * poznámky pod čarou (''< | ||
| * nadpisy již nejsou označeny zvláštní strukturou ''< | * nadpisy již nejsou označeny zvláštní strukturou ''< | ||
| - | </ | ||
| - | |||
| - | ===== Anotace SYN2020: změny oproti ostatním korpusům řady SYN ===== | ||
| - | |||
| - | ==== Tokenizace ==== | ||
| - | |||
| - | V dosavadních korpusech řady SYN byly téměř všechny kombinace alfabetických, | ||
| - | |||
| - | V SYN2020 je přístup opačný: numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura ''< | ||
| - | |||
| - | ==== Lemmatizace ==== | ||
| - | |||
| - | Zásadní změnou v korpusu SYN2020 je zavedení tzv. **dvojúrovňové lemmatizace**: | ||
| - | |||
| - | Jako **sublemmata** jsou řešeny různé typy variant (např. // | ||
| - | |||
| - | V souvislosti s těmito změnami byla oproti předchozím korpusům řady SYN lemmatizace významně zpřesněna, | ||
| - | |||
| - | ==== Morfologické značkování (tag) ==== | ||
| - | |||
| - | Morfologická značka (tag) má počínaje korpusem SYN2020 **15 pozic** (místo dřívějších 16 pozic). Značení **slovesného vidu** se přesouvá ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s dosavadními korpusy řady SYN. | ||
| - | |||
| - | K samotným **změnám ve značení** dochází na třech pozicích v tagu. Na **1. pozici** (slovní druh) se nově rozlišují hodnoty **F** (cizí slovo), **B** (zkratka) a **S** (segment). Zároveň bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv). Na **2. pozici** (detailní určení slovního druhu) byly v souvislosti s novými slovními druhy zavedeny nové značky a naopak jiné byly zrušeny. Komplexně bylo upraveno členění číslovek (např. hodnota **z** se nově používá pro číslovky //sto//, //tisíc//, //milion// původně značené jako substantiva) a také vznikla značka **0** pro identifikaci nekoncové interpunkce. K jedné změně dochází na **15. pozici** (varianta): číslo **8** (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu. | ||
| - | |||
| - | Spolehlivost automatické lemmatizace a automatického značkování korpusu SYN2020 je znatelně vyšší než u předcházejících korpusů řady SYN. Podrobný přehled změn je uveden na stránce [[cnk: | ||
| - | |||
| - | ==== Značkování sloves (verbtag) ==== | ||
| - | |||
| - | Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (//viděl jsem//), nebo jednoduchý (// | ||
| - | |||
| - | ==== Vícenásobná lemmatizace a značkování (agregát) ==== | ||
| - | V korpusu SYN2020 jsou nově zavedena **vícenásobná lemmata a značky** pro zvláštní skupinu slov, tzv. **agregáty**. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (//aby//, //kdyby//), spojení slov s příklonkou //s// (// | + | ===== Anotace SYN2025 ===== |
| - | ==== Automatická anotace | + | Morfologické značkování, |
| - | Celý proces anotace SYN2020 | + | Kromě toho je korpus SYN2025 (stejně jako korpus SYN2020) opatřen [[pojmy: |
| ====== Jak citovat SYN2025 ====== | ====== Jak citovat SYN2025 ====== | ||