| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| seznamy:tagy [2022/01/05 17:41] – [Morfologické značky (tagy) a jejich hodnoty] vaclavcvrcek | seznamy:tagy [2026/01/13 16:53] (aktuální) – [Pozice 15 - Varianta (stylový příznak)] krivan |
|---|
| Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka). | Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka). |
| |
| V případě, že značka je tvořena symbolem, který v rámci regulárních výrazů má speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]'' (viz [[pojmy:regularni_vyrazy|regulární výrazy]]). | V případě, že značka je tvořena symbolem, který má v rámci [[pojmy:regularni_vyrazy|regulárních výrazů]] speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]''. |
| |
| ===== Změny v morfologickém značkování psaných korpusů ===== | ===== Změny v morfologickém značkování psaných korpusů ===== |
| |
| Se zveřejněním korpusu [[cnk:syn2020|SYN2020]] se morfologická značka částečně změnila. (Aktuální značku již má také nová verze korpusu [[cnk:syn:verze9|SYN (verze 9)]].) V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo. | Se zveřejněním korpusu [[cnk:syn2020|SYN2020]], resp. [[cnk:syn:verze9|SYN (verze 9)]], se morfologická značka částečně změnila. V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo. |
| |
| === Původní morfologická značka (vývoj značení) === | === Původní morfologická značka (vývoj značení) === |
| 1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici. | 1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici. |
| |
| 2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. (I všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic.) | 2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. Všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic. |
| |
| 3. S publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum). | 3. S publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum). |
| ===== Nástroj pro sestavení morfologické značky ===== | ===== Nástroj pro sestavení morfologické značky ===== |
| |
| Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:index|KonText]]. | Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:novy_dotaz|KonText]]. |
| |
| ===== Popis jednotlivých pozic aktuální morfologické značky ===== | ===== Popis jednotlivých pozic aktuální morfologické značky ===== |
| - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]] | - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]] |
| |
| ==== 1. pozice: Slovní druh ==== | ==== Pozice 1 - Slovní druh ==== |
| |
| Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních: N (substantivum), A (adjektivum), P (zájmeno), C (číslovka), V (sloveso), D (adverbium), R (předložka), J (spojka), T (částice), I (citoslovce). Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela „tradiční“. Mezi slovní druhy se vedle tradičních slovních druhů dále řadí segment (S), zkratka (B), cizí slovo (F), interpunkce (Z) a neznámý slovní druh (X). | Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních (viz tabulka v následujícím oddíle): N (substantivum), A (adjektivum), P (zájmeno), C (číslovka), V (sloveso), D (adverbium), R (předložka), J (spojka), T (částice), I (citoslovce). Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela „tradiční“. Mezi slovní druhy se vedle tradičních slovních druhů dále řadí segment (S), zkratka (B), cizí slovo (F), interpunkce (Z) a neznámý slovní druh (X). |
| |
| Nové slovní druhy S, B a F jsou představeny na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]]. | Nové slovní druhy S, B a F jsou představeny na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]]. |
| |
| ==== 2. pozice: Detailní určení slovního druhu ==== | ==== Pozice 2 - Detailní určení slovního druhu ==== |
| |
| Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, přesněji sufixoid). | Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, přesněji sufixoid). |
| ==== Pozice 15 - Varianta (stylový příznak) ==== | ==== Pozice 15 - Varianta (stylový příznak) ==== |
| |
| Značkování stylového příznaku je z podstaty věci značně subjektivní a vázané na širší kontext, který při automatickém zpracování nelze brát v úvahu. Hodnoty přisuzované jednotlivým jevům jsou založeny na hodnocení, které se objevují v tradičních jazykovědných příručkách, můžou tedy být zastaralé nebo zcela mylné. Doporučujeme proto údaje na této pozici buď zcela ignorovat nebo je brát s velkou rezervou. | Značkování stylového příznaku je z podstaty věci značně subjektivní a vázané na širší kontext, který při automatickém zpracování nelze brát v úvahu. Hodnoty přisuzované jednotlivým jevům jsou založeny na hodnoceních, která se objevují v tradičních jazykovědných příručkách. Můžou tedy být zastaralé nebo zcela mylné. Doporučujeme proto údaje na této pozici brát s velkou rezervou. |
| | |
| | Počínaje korpusem syn_v9 jsou hodnoty zjednodušeny na ''-'', ''1'' , ''2'', ''6'', nerozlišuje se tedy mezi různými archaickými (''2'', ''3'', ''4'') nebo hovorovými (''5'', ''6'', ''7'', ''8'') variantami. Tím se může stát, že dva různé tvary mohou výjimečně mít stejnou kombinaci sublemma - tag. |
| | |
| | V mluvených korpusech (počínaje korpusem Ortofon_v3) jsou navíc označkovány zvláštní varianty typické pro nářečí a spontánní mluvenou řeč (''9''). |
| |
| ^ Značka ^ Význam ^ | ^ Značka ^ Význam ^ |
| | 1 | varianta víceméně rovnocenná | | | 1 | varianta víceméně rovnocenná | |
| | 2 | varianta gramaticky nebo stylisticky příznaková, nehovorová (obvykle řídká, knižní nebo archaická) | | | 2 | varianta gramaticky nebo stylisticky příznaková, nehovorová (obvykle řídká, knižní nebo archaická) | |
| | 3 | další varianta gramaticky nebo stylisticky příznaková, nehovorová | | | <fc #c0c0c0>3</fc> | <fc #c0c0c0>další varianta gramaticky nebo stylisticky příznaková, nehovorová</fc> | |
| | 4 | další varianta gramaticky nebo stylisticky příznaková, nehovorová | | | <fc #c0c0c0>4</fc> | <fc #c0c0c0>další varianta gramaticky nebo stylisticky příznaková, nehovorová</fc> | |
| | 5 | další varianta stylisticky příznaková, hovorová | | | <fc #c0c0c0>5</fc> | <fc #c0c0c0>další varianta stylisticky příznaková, hovorová</fc> | |
| | 6 | varianta stylisticky příznaková, hovorová (obvykle koncovka standardní obecné češtiny) | | | 6 | varianta stylisticky příznaková, hovorová (obvykle koncovka standardní obecné češtiny) | |
| | 7 | další varianta stylisticky příznaková, hovorová | | | <fc #c0c0c0>7</fc> | <fc #c0c0c0>další varianta stylisticky příznaková, hovorová</fc> | |
| | 8 | další varianta stylisticky příznaková, hovorová | | | <fc #c0c0c0>8</fc> | <fc #c0c0c0>další varianta stylisticky příznaková, hovorová</fc> | |
| | 9 | speciální použití | | | 9 | varianta stylisticky příznaková, typická pro nářečí a spontánní mluvenou řeč (pouze v mluvených korpusech) | |
| | - | neurčuje se ("základní" tvar pro kategorie v pozicích 1-14) | | | - | neurčuje se ("základní" tvar pro kategorie v pozicích 1-14) | |
| |