Nastavení

Morfologické značky (tagy) a jejich hodnoty

Morfologické značky (tagy) jsou součástí výsledku (výstupem) morfologické analýzy, která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. lemma, které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Počínaje korpusem SYN2020 se anotuje i zvláštní značka gramatických kategorií slovesa verbtag a pro varianty slov je zavedeno tzv. sublemma.

Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi dochází k desambiguaci (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.

Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze psané češtiny), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie).

Struktura značky

Popis tagu odpovídajícího slovním tvarům otevříno, zavříno v korpusu SYN2020


Každá značka je počínaje korpusem SYN2020 řetězcem 15 znaků (ke změnám ve značkování viz následující oddíl).

Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka).

V případě, že značka je tvořena symbolem, který v rámci regulárních výrazů má speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: [tag="J\*.*"] (viz regulární výrazy).

Změny v morfologickém značkování psaných korpusů

Se zveřejněním korpusu SYN2020 se morfologická značka částečně změnila. (Aktuální značku již má také nová verze korpusu SYN (verze 9).) V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo.

Původní morfologická značka (vývoj značení)

1. V prvních zveřejněných korpusech SYN2000 a ORWELL měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici.

2. S uveřejněním korpusu SYN2005 byla přidána 16. pozice, vyjadřující slovesný vid. (I všechny následující značkované korpusy uveřejňované v letech 2005–2020 používaly morfologickou značku, kterou tvoří 16 pozic.)

3. S publikací korpusu SYN2009PUB bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3–9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. „Y“ pro maskulinum animatum i inanimatum).

Na této stránce je k dispozici přehled pozic morfologické značky z celého tohoto období. Všechny průběžné změny popsané v bodech (1)–(3) jsou v tomto přehledu vyznačeny.

Aktuální morfologická značka

Počínaje korpusem SYN2020 má morfologická značka 15 pozic. Značení slovesného vidu se přesunulo ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s původní morfologickou značkou.

Zároveň však došlo ke změnám ve značení na jednotlivých pozicích: Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment). Na 2. pozici (detailní určení slovního druhu) jsou v souvislosti s novými slovními druhy zavedeny nové značky a jiné jsou naopak zrušeny, komplexně bylo upraveno členění číslovek a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dále dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu. Podrobný popis změn ve vztahu k původní značce je uveden na stránce morfologické značkování SYN2020.

Níže uvádíme kompletní přehled pozic aktuální morfologické značky.

Nástroj pro sestavení morfologické značky

Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní KonText.

Popis jednotlivých pozic aktuální morfologické značky

Pozice jsou číslovány od 1 do 15. Každé pozici odpovídá jiná gramatická kategorie:

  1. pozice nepoužita

1. pozice: Slovní druh

Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních: N (substantivum), A (adjektivum), P (zájmeno), C (číslovka), V (sloveso), D (adverbium), R (předložka), J (spojka), T (částice), I (citoslovce). Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela „tradiční“. Mezi slovní druhy se vedle tradičních slovních druhů dále řadí segment (S), zkratka (B), cizí slovo (F), interpunkce (Z) a neznámý slovní druh (X).

Nové slovní druhy S, B a F jsou představeny na stránce morfologické značkování SYN2020.

2. pozice: Detailní určení slovního druhu

Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, přesněji sufixoid).

Souhrnný přehled pozic 1 a 2

Poz. 1 Slovní druh Poz. 2 Detailní určení slovního druhu
N substantivum (podstatné jméno) N substantivum obyčejné
A adjektivum (přídavné jméno) A adjektivum obyčejné
C jmenný tvar adjektiva
U adjektivum přivlastňovací (na „-ův“ i „-in“)
G adjektivum odvozené od slovesného tvaru přítomného přechodníku
M adjektivum odvozené od slovesného tvaru minulého přechodníku
O adjektiva „svůj“, „nesvůj“, „tentam“ (nezájmenné výrazy v přísudkové/doplňkové pozici)
P pronomen (zájmeno) P osobní zájmeno
H krátký tvar osobního zájmena („mě“, „mi“, „ti“, „mu“ …)
5 zájmeno „on“, „oni“ ve tvarech po předložce (tj. „n-“: „něj“, „něho“, „nich“ …)
6 reflexívní zájmeno „se“ v dlouhých tvarech („sebe“, „sobě“, „sebou“)
7 reflexívní zájmeno „se“, „si“ pouze v těchto tvarech, a dále „ses“, „sis“
D ukazovací zájmeno („ten“, „onen“ …)
S přivlastňovací zájmeno „můj“, „tvůj“, „jeho“ (vč. plurálu)
8 přivlastňovací zájmeno „svůj“
1 vztažné přivlastňovací zájmeno („jehož“, „jejíž“ …)
Z neurčité zájmeno („nějaký“, „některý“, „číkoli“, „cosi“ …)
L neurčité zájmeno „všechen“, „sám“
W záporné zájmeno („nic“, „nikdo“, „nijaký“, „žádný“ …)
4 vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: „jaký“, „který“, „čí“ …)
J vztažné zájmeno „jenž“ („již“ …), bez předložky
9 vztažné zájmeno „jenž“, „již“ … po předložce („n-“: „něhož“, „níž“ …)
K tázací nebo vztažné zájmeno „kdo“, vč. tvarů s „-ž“ a „-s“
Q tázací nebo vztažné zájmeno „co“, „copak“, „cožpak“
E vztažné zájmeno „což“
C numerál (číslovka, nebo číselný výraz s číslicemi) l číslovka základní 1–4 + „nejeden“
n číslovka základní 5–99, i pokud je součástí složené číslovky psané dohromady („dvacetpět“, „stotřicet“, „pětapůl“)
z číslovka základní se substantivním skloňováním („sto“, „milion“, „nula“ apod.)
a číslovka základní neurčitá a tázací („mnoho“, „tolik“, „kolik“)
y číslovka dílová („půl“, „polovic“, „polovina“)
r číslovka řadová
w číslovka řadová neurčitá a tázací
d číslovka druhová a souborová („dvojí“, „obojí“, „čtverý“ včetně tvarů „dvoje“, „oboje“, „čtvery“; „obé“; „jedny“)
h číslovka druhová a souborová neurčitá a tázací
j číslovka úhrnná („čtvero“, „patero“, „devatero“, „dvé“, „tré“)
k číslovka úhrnná neurčitá a tázací („několikero“, „tolikero“, „kolikero“)
u číslovka násobná (adjektivní typ: „dvojitý“, „osminásobný“)
3 číslovka násobná neurčitá a tázací (adjektivní typ: „mnohonásobný“, „xnásobný“, „kolikanásobný“)
v číslovka násobná (adverbiální typ, včetně spřežek: „pětkrát“, „osminásobně“, „trojnásob“, „jednou“)
o číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek: „mnohokrát“, „několikanásobně“, „pokolikáté“, „naponěkolikáté“ …)
= číslo psané arabskými číslicemi
} číslo psané římskými číslicemi
V verbum (sloveso) f infinitiv
B tvar přítomného nebo budoucího času
t archaický tvar přítomného nebo budoucího času (zakončení „-ť“)
i tvar rozkazovacího způsobu
c kondicionál slovesa být („by“, „bych“, „bys“, „bychom“, „byste“)
p tvar minulého aktivního příčestí (včetně přidaného „-s“)
q archaický tvar minulého aktivního příčestí (zakončení „-ť“)
s tvar pasívního příčestí (vč. přidaného „-s“)
e tvar přechodníku přítomného („-e“, „-íc“, „-íce“)
m tvar přechodníku minulého, příp. (zastarale) přechodník přítomný dokonavý
D adverbium (příslovce) g příslovce (s určením stupně a negace; „velký“, „zajímavý“ …)
b příslovce (bez určení stupně a negace; „pozadu“, „naplocho“ …)
R prepozice (předložka) R předložka obyčejná
V předložka vokalizovaná („ve“, „pode“, „ku“ …)
F součást předložky, která nikdy nestojí samostatně („narozdíl“, „vzhledem“ …)
J konjunkce (spojka) ^ spojka souřadicí
, spojka podřadicí (vč. „aby“ a „kdyby“ ve všech tvarech)
* spojka: operátor („plus“, „minus“, „x“)
T partikule (částice) T částice
I interjekce (citoslovce) I citoslovce
S segment 2 prefixoid (samostatně stojící předpona nebo předpona oddělená spojovníkem)
[ ] u sufixoidů se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, k jakému slovu se sufixoid vztahuje
B zkratka [ ] u zkratek se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, jaké slovo zkratka zkracuje
Z interpunkce, hranice věty : interpunkce všeobecně
0 nekoncová interpunkce (tečka za zkratkou, číslicí apod.)
F cizí slovo % cizí slovo
X neznámý, neurčený, neurčitelný slovní druh @ morfologickou analýzou nerozpoznaný tvar
x slovní druh neurčen/neznámý

Pozice 3 - Jmenný rod

Značka Význam
M maskulinum animatum (rod mužský životný)
I maskulinum inanimatum (rod mužský neživotný)
F femininum (ženský rod)
N neutrum (střední rod)
- neurčuje se

Pozice 4 - Číslo

Značka Význam
S singulár (jednotné číslo)
P plurál (množné číslo)
D duál (pouze 7. pád feminin)
- neurčuje se

Pozice 5 - Pád

Značka Význam
1 nominativ (1. pád)
2 genitiv (2. pád)
3 dativ (3. pád)
4 akuzativ (4. pád)
5 vokativ (5. pád)
6 lokál (6. pád)
7 instrumentál (7. pád)
- neurčuje se

Pozice 6 - Přivlastňovací rod

Vyjadřuje rod subjektu nebo objektu, jemuž zájmeno nebo adjektivum přivlastňuje: jeho/její (kniha), kde jeho je tagováno jako přivlastňovací maskulinum a její jako přivlastňovací femininum, analogicky u adjektiv otcův/matčin (bratr) je otcův značkován jako maskulinum a matčin jako femininum.

Rody mužský neživotný a střední se nikdy jako samostatná kategorie nevyskytují. Rod mužský životný (M) se může vyskytnout jen u přivlastňovacích adjektiv.

Značka Význam
M maskulinum animatum (rod mužský životný)
F femininum (ženský rod)
- neurčuje se

Pozice 7 - Přivlastňovací číslo

Kategorie, která se uplatňuje u zájmen: můj, tvůj, jeho atp. představují přivlastňovací singulár, protože přivlastňují subjektu nebo objektu v singuláru, zatímco náš, váš jejich jsou označeny jako přivlastňovací plurál.

Značka Význam
S singulár (jednotné číslo)
P plurál (množné číslo)
- neurčuje se

Pozice 8 - Osoba

Značka Význam
1 1. osoba
2 2. osoba
3 3. osoba
- neurčuje se

Pozice 9 - Čas

Značka Význam
P prézens (přítomný čas)
R minulý čas
F futurum (budoucí čas)
- neurčuje se

Pozice 10 - Stupeň

Značka Význam
1 1. stupeň (pozitiv)
2 2. stupeň (komparativ)
3 3. stupeň (superlativ)
- neurčuje se

Pozice 11 - Negace

Značka Význam
A afirmativ (bez negativní předpony „ne-“)
N negace (tvar s negativní předponou „ne-“)
- neurčuje se

Pozice 12 - Aktivum/pasivum

Značka Význam
A aktivum nebo 'nikoli pasívum'
P pasívum
- neurčuje se

Pozice 13 - Vid

Značka Význam
P perfektivum (dokonavé sloveso)
I imperfektivum (nedokonavé sloveso)
B obouvidé sloveso
- neurčuje se

Pozice 14 - Nepoužito

Značka Význam
- neurčuje se

Pozice 15 - Varianta (stylový příznak)

Značkování stylového příznaku je z podstaty věci značně subjektivní a vázané na širší kontext, který při automatickém zpracování nelze brát v úvahu. Hodnoty přisuzované jednotlivým jevům jsou založeny na hodnocení, které se objevují v tradičních jazykovědných příručkách, můžou tedy být zastaralé nebo zcela mylné. Doporučujeme proto údaje na této pozici buď zcela ignorovat nebo je brát s velkou rezervou.

Značka Význam
1 varianta, víceméně rovnocenná („méně častá“)
2 řídká, archaická nebo knižní varianta
3 velmi archaický tvar, též hovorový*
4 velmi archaický nebo knižní tvar, pouze spisovný (ve své době)*
5 hovorový tvar, ale v zásadě tolerovaný ve veřejných projevech*
6 hovorový tvar (koncovka standardní obecné češtiny)
7 hovorový tvar (koncovka standardní obecné češtiny), další varianta k '6'*
8 hovorový tvar (koncovka standardní obecné češtiny), další varianta k '6'*
9 speciální použití (tvary zájmen po předložkách apod.)
- neurčuje se („základní“ tvar pro kategorie v pozicích 1-14)

* Některé značky jsou si velice blízké a je obtížné mezi nimi rozlišovat.