Toto je starší verze dokumentu!
Obsah
Morfologické značky (tagy)
Morfologické značky (tagy) jsou součástí výsledku (výstupem) morfologické analýzy, která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. lemma, které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi dochází k desambiguaci (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.
Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze psané češtiny), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie).
Struktura značky
Každá značka je řetězcem 16 znaků (16. pozice chybí pouze v korpusech SYN2000 a ORWELL). Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka).
V případě, že značka je tvořena symbolem, který v rámci regulárních výrazů má speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: [tag="J\*.*"]
(viz regulární výrazy).
Změny v morfologickém značkování psaných korpusů
S uveřejněním korpusu SYN2005 byla přidána 16. pozice, vyjadřující slovesný vid. I všechny následující korpusy používají morfologickou značku, kterou tvoří 16 pozic.
S uveřejněním korpusu SYN2009PUB bylo provedeno zjednodušení systému značek. Změny se týkají pozic č. 3–9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. „Y“ pro maskulinum animatum i inanimatum). V následujícím seznamu jsou tyto změny označeny hvězdičkou (*).
Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní KonText.
Změny v morfologickém značkování mluvených korpusů
Popis jednotlivých pozic značky
Pozice jsou číslovány od 1 do 16 (16. pozice chybí pouze v korpusech SYN2000, ORWELL a InterCorp ve vydání 6 a starších). Každé pozici odpovídá jiná gramatická kategorie:
- pozice nepoužita
- pozice nepoužita
Pozice 1 - Slovní druh
Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních. Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela „tradiční“.
Značka | Význam |
---|---|
N | substantivum (podstatné jméno) |
A | adjektivum (přídavné jméno) |
P | pronomen (zájmeno) |
C | numerál (číslovka, nebo číselný výraz s číslicemi) |
V | verbum (sloveso) |
D | adverbium (příslovce) |
R | prepozice (předložka) |
J | konjunkce (spojka) |
T | partikule (částice) |
I | interjekce (citoslovce) |
X | neznámý, neurčený, neurčitelný slovní druh |
Z | interpunkce, hranice věty |
V korpusu ORALv1 z června 2017 přibyly na první pozici tagu tři značky, specifické pro spontánní mluvenou řeč.
Značka | Význam |
---|---|
F | fragmenty (nedořečená slova) |
H | neverbální zvuky (např. hezitační) |
M | komentáře přepisujících (v kulatých závorkách) |
Pozice 2 - Detailní určení slovního druhu
Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné jednoznačně vyvodit hlavní slovní druh.
Značka | Význam | Značka | Význam |
---|---|---|---|
! | zkratka jako adverbium | R | předložka, obyčejná |
* | slovo „krát“ (slovní druh: spojka) | S | zájmeno přivlastňovací „můj“, „tvůj“, „jeho“ (vč. plurálu) |
, | spojka podřadicí (vč. „aby“ a „kdyby“ ve všech tvarech) | T | částice (slovní druh 'T') |
. | zkratka jako adjektivum | U | adjektivum přivlastňovací (na „-ův“ i „-in“) |
: | interpunkce všeobecně | V | předložka vokalizovaná („ve“, „pode“, „ku“, …) |
; | zkratka jako substantivum | W | zájmena záporná („nic“, „nikdo“, „nijaký“, „žádný“, …) |
= | číslo psané číslicemi (značkováno jako slovní druh: číslovka - 'C') | X | slovní tvar, který byl rozpoznán, ale značka (ve slovníku) chybí |
? | číslovka „kolik“ | Y | zájmeno „co“ spojené s předložkou („oč“, „nač“, „zač“) |
^ | spojka souřadicí | Z | zájmeno neurčité („nějaký“, „některý“, „číkoli“, „cosi“, …) |
} | číslovka psaná římskými číslicemi | a | číslovka neurčitá („mnoho“, „málo“, „tolik“, „několik“, „kdovíkolik“, …) |
~ | zkratka jako sloveso | b | příslovce (bez určení stupně a negace; „pozadu“, „naplocho“, …) |
@ | morfologickou analýzou nerozpoznaný tvar (slovní druh: 'X' = neznámý) | c | kondicionál slovesa být („by“, „bych“, „bys“, „bychom“, „byste“) |
0 | předložka s připojeným „-ň“ (něj), „proň“, „naň“, atd. (značkováno jako slovní druh: zájmeno - 'P') | d | číslovka druhová, adjektivní skloňování („jedny“, „dvojí“, „desaterý“, …) |
1 | vztažné přivlastňovací zájmeno „jehož“, „jejíž“, … | e | slovesný tvar přechodníku přítomného („-e“, „-íc“, „-íce“) |
2 | slovo před pomlčkou | f | slovesný tvar: infinitiv |
3 | zkratka jako číslovka | g | příslovce (s určením stupně a negace; „velký“, „zajímavý“, …) |
4 | vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: „jaký“, „který“, „čí“, …) | h | číslovky druhové „jedny“ a „nejedny“ |
5 | zájmeno „on“ ve tvarech po předložce (tj. „n-“: „něj“, „něho“, …) | i | slovesný tvar rozkazovacího způsobu |
6 | reflexívní zájmeno „se“ v dlouhých tvarech („sebe“, „sobě“, „sebou“) | j | číslovka druhová >= 4, substantivní postavení („čtvero“, „desatero“, …) |
7 | reflexívní zájmeno „se“, „si“ pouze v těchto tvarech, a dále „ses“, „sis“ | k | číslovka druhová >= 4, adjektivní postavení, krátký tvar („čtvery“, …) |
8 | přivlastňovací zájmeno „svůj“ | l | číslovky základní 1-4, „půl“, …; sto a tisíc v nesubstantivním skloňování |
9 | vztažné zájmeno „jenž“, „již“, … po předložce („n-“: „něhož“, „níž“, …) | m | slovesný tvar přechodníku minulého, příp. (zastarale) přechodník přítomný dokonavý |
A | adjektivum obyčejné | n | číslovky základní >= 5 |
B | sloveso, tvar přítomného nebo budoucího času | o | číslovky násobné neurčité („-krát“: „mnohokrát“, „tolikrát“, …) |
C | adjektivum, jmenný tvar | p | slovesné tvary minulého aktivního příčestí (včetně přidaného „-s“) |
D | zájmeno ukazovací („ten“, „onen“, …) | q | archaické slovesné tvary minulého aktivního příčestí (zakončení „-ť“) |
E | vztažné zájmeno „což“ | r | číslovky řadové |
F | součást předložky, která nikdy nestojí samostatně („nehledě“, „vzhledem“, …) | s | slovesné tvary pasívního příčestí (vč. přidaného „-s“) |
G | přídavné jméno odvozené od slovesného tvaru přítomného přechodníku | t | archaické slovesné tvary přítomného a budoucího času (zakončení „-ť“) |
H | krátké tvary osobních zájmen („mě“, „mi“, „ti“, „mu“, …) | u | číslovka tázací násobná „kolikrát“ |
I | citoslovce (značkováno jako slovní druh: citoslovce - 'I') | v | číslovky násobné („-krát“: „pětkrát“, „poprvé“ …) |
J | vztažné zájmeno „jenž“ („již“, …), bez předložky | w | číslovky neurčité s adjektivním skloňováním („nejeden“, „tolikátý“, „několikátý“ …) |
K | zájmeno tázací nebo vztažné „kdo“, vč. tvarů s „-ž“ a „-s“ | x | zkratka, slovní druh neurčen/neznámý |
L | zájmeno neurčité „všechen“, „sám“ | y | zlomky zakončené na „-ina“ (značkováno jako slovní druh: číslovka - 'C') |
M | přídavné jméno odvozené od slovesného tvaru minulého přechodníku | z | číslovka tázací řadová „kolikátý“ |
N | substantivum, obyčejné | ||
O | samostatně stojící zájmena „svůj“, „nesvůj“, „tentam“ | ||
P | osobní zájmena (vč. tvaru „tys“) | ||
Q | zájmeno tázací/vztažné „co“, „copak“, „cožpak“ |
Pozice 3 - Jmenný rod
Značka | Význam |
---|---|
- | neurčuje se |
F | femininum (ženský rod) |
H | femininum nebo neutrum (tedy nikoli maskulinum)* |
I | maskulinum inanimatum (rod mužský neživotný) |
M | maskulinum animatum (rod mužský životný) |
N | neutrum (střední rod) |
Q | femininum singuláru nebo neutrum plurálu (pouze u příčestí a jmenných adjektiv)* |
T | masculinum inanimatum nebo femininum (jen plurál u příčestí a jmenných adjektiv)* |
X | libovolný rod (F/M/I/N) |
Y | masculinum (animatum nebo inanimatum)* |
Z | 'nikoli femininum' (tj. M/I/N; především u příslovcí)* |
* Tato značka je k dispozici pouze v korpusech: SYN2006PUB, SYN2005, SYN2000, ORWELL.
Pozice 4 - Číslo
Značka | Význam |
---|---|
- | neurčuje se |
D | duál (pouze 7. pád feminin) |
P | plurál (množné číslo) |
S | singulár (jednotné číslo) |
W | pouze v kombinaci s jmenným rodem 'Q' (singulár pro feminina, plurál pro neutra)* |
X | libovolné číslo (P/S/D) |
* Tato značka je k dispozici pouze v korpusech: SYN2006PUB, SYN2005, SYN2000, ORWELL.
Pozice 5 - Pád
Značka | Význam |
---|---|
- | neurčuje se |
1 | nominativ (1. pád) |
2 | genitiv (2. pád) |
3 | dativ (3. pád) |
4 | akuzativ (4. pád) |
5 | vokativ (5. pád) |
6 | lokál (6. pád) |
7 | instrumentál (7. pád) |
X | libovolný pád (1/2/3/4/5/6/7)* |
* Tato značka je k dispozici pouze v korpusech: SYN2006PUB, SYN2005, SYN2000, ORWELL.
Pozice 6 - Přivlastňovací rod
Vyjadřuje rod subjektu nebo objektu, jemuž zájmeno nebo adjektivum přivlastňuje: jeho/její (kniha), kde jeho je tagováno jako přivlastňovací maskulinum a její jako přivlastňovací femininum, analogicky u adjektiv otcův/matčin (bratr) je otcův značkován jako maskulinum a matčin jako femininum.
Rody mužský neživotný a střední se nikdy jako samostatná kategorie nevyskytují. Rod mužský životný (M) se může vyskytnout jen u přivlastňovacích adjektiv.
Značka | Význam |
---|---|
- | neurčuje se |
F | femininum (ženský rod) |
M | maskulinum animatum (rod mužský životný) |
X | libovolný rod (F/M/I/N) |
Z | 'nikoli femininum' (tj. M/I/N; u přivlastňovacích adjektiv)* |
* Tato značka je k dispozici pouze v korpusech: SYN2006PUB, SYN2005, SYN2000, ORWELL.
Pozice 7 - Přivlastňovací číslo
Kategorie, která se uplatňuje u zájmen: můj, tvůj, jeho atp. představují přivlastňovací singulár, protože přivlastňují subjektu nebo objektu v singuláru, zatímco náš, váš jejich jsou označeny jako přivlastňovací plurál.
Značka | Význam |
---|---|
- | neurčuje se |
P | plurál (množné číslo) |
S | singulár (jednotné číslo) |
Pozice 8 - Osoba
Značka | Význam |
---|---|
- | neurčuje se |
1 | 1. osoba |
2 | 2. osoba |
3 | 3. osoba |
X | libovolná osoba (1/2/3)* |
* Tato značka je k dispozici pouze v korpusech: SYN2006PUB, SYN2005, SYN2000, ORWELL.
Pozice 9 - Čas
Značka | Význam |
---|---|
- | neurčuje se |
F | futurum (budoucí čas) |
H | minulost nebo přítomnost (P/R)* |
P | prézens (přítomný čas) |
R | minulý čas |
X | libovolný čas (F/R/P)* |
* Tato značka je k dispozici pouze v korpusech: SYN2006PUB, SYN2005, SYN2000, ORWELL.
Pozice 10 - Stupeň
Značka | Význam |
---|---|
- | neurčuje se |
1 | 1. stupeň |
2 | 2. stupeň |
3 | 3. stupeň |
Pozice 11 - Negace
Značka | Význam |
---|---|
- | neurčuje se |
A | afirmativ (bez negativní předpony „ne-“) |
N | negace (tvar s negativní předponou „ne-“) |
Pozice 12 - Aktivum/pasivum
Značka | Význam |
---|---|
- | neurčuje se |
A | aktivum nebo 'nikoli pasívum' |
P | pasívum |
Pozice 13 - Nepoužito
Značka | Význam |
---|---|
- | neurčuje se |
Pozice 14 - Nepoužito
Značka | Význam |
---|---|
- | neurčuje se |
Pozice 15 - Varianta (stylový příznak)
Značkování stylového příznaku je z podstaty věci značně subjektivní a vázané na širší kontext, který při automatickém zpracování nelze brát v úvahu. Hodnoty přisuzované jednotlivým jevům jsou založeny na hodnocení, které se objevují v tradičních jazykovědných příručkách, můžou tedy být zastaralé nebo zcela mylné. Doporučujeme proto údaje na této pozici buď zcela ignorovat nebo je brát s velkou rezervou.
Značka | Význam |
---|---|
- | neurčuje se („základní“ tvar pro kategorie v pozicích 1-14) |
1 | varianta, víceméně rovnocenná („méně častá“) |
2 | řídká, archaická nebo knižní varianta |
3 | velmi archaický tvar, též hovorový* |
4 | velmi archaický nebo knižní tvar, pouze spisovný (ve své době)* |
5 | hovorový tvar, ale v zásadě tolerovaný ve veřejných projevech* |
6 | hovorový tvar (koncovka standardní obecné češtiny) |
7 | hovorový tvar (koncovka standardní obecné češtiny), varianta k '6'* |
8 | zkratky |
9 | speciální použití (tvary zájmen po předložkách apod.) |
* Některé značky jsou si velice blízké a je obtížné mezi nimi rozlišovat. V korpusech SYN2015 a SYN v4 byly proto značky 3,4 převedeny na 2 a značky 5,7 na 6.