AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:tagy [2022/01/05 17:41] – [Morfologické značky (tagy) a jejich hodnoty] vaclavcvrcekseznamy:tagy [2022/04/18 18:32] (aktuální) jankrivan
Řádek 15: Řádek 15:
 Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka). Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka).
  
-V případě, že značka je tvořena symbolem, který v rámci regulárních výrazů má speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]'' (viz [[pojmy:regularni_vyrazy|regulární výrazy]]).+V případě, že značka je tvořena symbolem, který má v rámci [[pojmy:regularni_vyrazy|regulárních výrazů]] speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]''.
  
 ===== Změny v morfologickém značkování psaných korpusů ===== ===== Změny v morfologickém značkování psaných korpusů =====
  
-Se zveřejněním korpusu [[cnk:syn2020|SYN2020]] se morfologická značka částečně změnila(Aktuální značku již má také nová verze korpusu [[cnk:syn:verze9|SYN (verze 9)]].V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo. +Se zveřejněním korpusu [[cnk:syn2020|SYN2020]], resp. [[cnk:syn:verze9|SYN (verze 9)]], se morfologická značka částečně změnila. V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo. 
  
 === Původní morfologická značka (vývoj značení) === === Původní morfologická značka (vývoj značení) ===
Řádek 25: Řádek 25:
 1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici. 1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici.
  
-2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. (I všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic.)+2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. Všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic.
  
 3. S publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum). 3. S publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum).
Řádek 41: Řádek 41:
 ===== Nástroj pro sestavení morfologické značky ===== ===== Nástroj pro sestavení morfologické značky =====
  
-Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:index|KonText]].+Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:novy_dotaz|KonText]].
  
 ===== Popis jednotlivých pozic aktuální morfologické značky ===== ===== Popis jednotlivých pozic aktuální morfologické značky =====
Řádek 63: Řádek 63:
   - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]]   - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]]
  
-==== 1. pozice: Slovní druh ====+==== Pozice Slovní druh ====
  
-Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních: N (substantivum), A (adjektivum), P (zájmeno), C (číslovka), V (sloveso), D (adverbium), R (předložka), J (spojka), T (částice), I (citoslovce). Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela „tradiční“. Mezi slovní druhy se vedle tradičních slovních druhů dále řadí segment (S), zkratka (B), cizí slovo (F), interpunkce (Z) a neznámý slovní druh (X).+Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních (viz tabulka v následujícím oddíle): N (substantivum), A (adjektivum), P (zájmeno), C (číslovka), V (sloveso), D (adverbium), R (předložka), J (spojka), T (částice), I (citoslovce). Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela „tradiční“. Mezi slovní druhy se vedle tradičních slovních druhů dále řadí segment (S), zkratka (B), cizí slovo (F), interpunkce (Z) a neznámý slovní druh (X).
  
 Nové slovní druhy S, B a F jsou představeny na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]]. Nové slovní druhy S, B a F jsou představeny na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]].
  
-==== 2. pozice: Detailní určení slovního druhu ====+==== Pozice Detailní určení slovního druhu ====
  
 Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, přesněji sufixoid). Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, přesněji sufixoid).