AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:tagy [2021/03/11 11:07] – [Pozice 1 - Slovní druh] michalskrabalseznamy:tagy [2022/04/18 18:32] (aktuální) jankrivan
Řádek 1: Řádek 1:
-====== Morfologické značky (tagy) ======+====== Morfologické značky (tagy) a jejich hodnoty ======
  
-Morfologické [[pojmy:tag|značky (tagy)]] jsou součástí výsledku (výstupem) [[pojmy:morfologicka_analyza|morfologické analýzy]], která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. [[pojmy:lemma|lemma]], které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi dochází k [[pojmy:desambiguace|desambiguaci]] (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.+Morfologické [[pojmy:tag|značky (tagy)]] jsou součástí výsledku (výstupem) [[pojmy:morfologicka_analyza|morfologické analýzy]], která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Dalším výstupem analýzy je tzv. [[pojmy:lemma|lemma]], které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Počínaje korpusem [[cnk:syn2020|SYN2020]] se anotuje i zvláštní značka gramatických kategorií slovesa [[pojmy:verbtag|verbtag]] a pro varianty slov je zavedeno tzv. [[pojmy:lemma#sublemma|sublemma]]. 
 + 
 +Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi proto dochází k [[pojmy:desambiguace|desambiguaci]] (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.
  
 Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk:syn|psané češtiny]]), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie). Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk:syn|psané češtiny]]), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie).
  
 +Morfologická analýza je předmětem neustálého vyvoje a zlepšování. V různých korpusech proto můžete narazit na různé verze analýzy, což se může projevit v odlišnostech jak u anotačního schématu, tak u samotných výsledků a jejich chybovosti.
 ===== Struktura značky ===== ===== Struktura značky =====
  
-[{{:seznamy:tagy.png?300|Popis tagu odpovídajícího slovním tvarům //otevříno, zavříno// v korpusu [[cnk:syn|SYN]]}}]+[{{:seznamy:tagy_new.png?300|Popis tagu odpovídajícího slovním tvarům //otevříno, zavříno// v korpusu [[cnk:syn2020|SYN2020]]}}]\\ 
 +Každá značka je počínaje korpusem SYN2020 řetězcem 15 znaků (ke změnám ve značkování viz následující oddíl). 
  
-Každá značka je řetězcem 16 znaků (16. pozice chybí pouze v korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]]). Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka).+Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka).
  
-V případě, že značka je tvořena symbolem, který v rámci regulárních výrazů má speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]'' (viz [[pojmy:regularni_vyrazy|regulární výrazy]]).+V případě, že značka je tvořena symbolem, který má v rámci [[pojmy:regularni_vyrazy|regulárních výrazů]] speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]''.
  
 ===== Změny v morfologickém značkování psaných korpusů ===== ===== Změny v morfologickém značkování psaných korpusů =====
  
-S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. I všechny následující korpusy používají morfologickou značku, kterou tvoří 16 pozic. +Se zveřejněním korpusu [[cnk:syn2020|SYN2020]], resp. [[cnk:syn:verze9|SYN (verze 9)]], se morfologická značka částečně změnila. V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo.  
 + 
 +=== Původní morfologická značka (vývoj značení) === 
 + 
 +1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici. 
 + 
 +2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. Všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic.
  
-uveřejněním korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo provedeno zjednodušení systému značek. Změny se týkají pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum). V následujícím seznamu jsou tyto změny označeny hvězdičkou (*). +3. publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum).
  
-Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:index|KonText]].+Na [[seznamy:tagy_archiv|této stránce]] je k dispozici přehled pozic morfologické značky z celého tohoto období. Všechny průběžné změny popsané v bodech (1)--(3) jsou v tomto přehledu vyznačeny.
  
-===== Změny v morfologickém značkování mluvených korpusů =====+=== Aktuální morfologická značka ===
  
-===== Popis jednotlivých pozic značky =====+Počínaje korpusem [[cnk:syn2020|SYN2020]] má morfologická značka 15 pozic. Značení slovesného vidu se přesunulo ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s původní morfologickou značkou. 
  
-Pozice jsou číslovány od do 16 (16pozice chybí pouze korpusech [[cnk:syn2000|SYN2000]], [[cnk:orwell|ORWELL]] a [[cnk:intercorp|InterCorp]] ve vydání 6 a starších). Každé pozici odpovídá jiná gramatická kategorie:+Zároveň však došlo ke změnám ve značení na jednotlivých pozicích: Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment)Na 2. pozici (detailní určení slovního druhu) jsou souvislosti s novými slovními druhy zavedeny nové značky a jiné jsou naopak zrušeny, komplexně bylo upraveno členění číslovek a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dále dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu. Podrobný popis změn ve vztahu k původní značce je uveden na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]].  
 + 
 +Níže uvádíme kompletní přehled pozic aktuální morfologické značky. 
 + 
 +===== Nástroj pro sestavení morfologické značky ===== 
 + 
 +Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagůkterý je integrován do rozhraní [[manualy:kontext:novy_dotaz|KonText]]
 + 
 +===== Popis jednotlivých pozic aktuální morfologické značky ===== 
 + 
 +Pozice jsou číslovány od 1 do 15. Každé pozici odpovídá jiná gramatická kategorie:
  
   - [[seznamy:tagy#pozice_1_-_slovni_druh|Slovní druh]]   - [[seznamy:tagy#pozice_1_-_slovni_druh|Slovní druh]]
Řádek 39: Řádek 59:
   - [[seznamy:tagy#pozice_11_-_negace|Negace]]   - [[seznamy:tagy#pozice_11_-_negace|Negace]]
   - [[seznamy:tagy#pozice_12_-_aktivum_pasivum|Aktivum/pasivum]]   - [[seznamy:tagy#pozice_12_-_aktivum_pasivum|Aktivum/pasivum]]
-  - pozice nepoužita+  - [[seznamy:tagy#pozice_13_-_vid|Vid]]
   - pozice nepoužita   - pozice nepoužita
   - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]]   - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]]
-  - [[seznamy:tagy#pozice_16_-_vid|Vid]]+
 ==== Pozice 1 - Slovní druh ==== ==== Pozice 1 - Slovní druh ====
  
-Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních. Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela "tradiční".+Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních (viz tabulka v následujícím oddíle): N (substantivum), A (adjektivum), P (zájmeno), C (číslovka), V (sloveso), D (adverbium), R (předložka), J (spojka), T (částice), I (citoslovce). Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela tradiční“. Mezi slovní druhy se vedle tradičních slovních druhů dále řadí segment (S), zkratka (B), cizí slovo (F), interpunkce (Z) a neznámý slovní druh (X).
  
-^  Značka  ^  Význam +Nové slovní druhy SB a F jsou edstaveny na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]].
-|  N | substantivum (podstatné jméno) | +
-|  A    | adjektivum (přídavné jméno) | +
-|  P | pronomen (zájmeno) | +
-|  C | numerál (číslovkanebo číselný výraz s číslicemi) | +
-|  V | verbum (sloveso) | +
-|  D | adverbium (íslovce) | +
-|  R | prepozice (předložka) | +
-|  J | konjunkce (spojka) | +
-|  T | partikule (částice) | +
-|  I | interjekce (citoslovce) | +
-|  X | neznámý, neurčený, neurčitelný slovní druh | +
-|  Z | interpunkce, hranice věty |+
  
-V korpusech ORALv1 a ORTOFON z června 2017 přibyly na první pozici tagu tři značky, specifické pro spontánní mluvenou řeč. +==== Pozice 2 - Detailní určení slovního druhu ====
  
-^  Značka  ^  Význam +Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznač). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, žteoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, esněji sufixoid).
-|  F | fragmenty (nedořečená slova+
-|  H    | neverbální zvuky (napřhezitační) | +
-|  M | komentáře přepisujících (v kulatých závorkách|+
  
 +==== Souhrnný přehled pozic 1 a 2 ====
  
 +^ Poz. 1 ^ Slovní druh  ^ Poz. 2 ^ Detailní určení slovního druhu ^
 +|  N | substantivum (podstatné jméno) |  N  | substantivum obyčejné |
 +|  A    | adjektivum (přídavné jméno) |    | adjektivum obyčejné  |
 +| ::: | :::                            C  | jmenný tvar adjektiva  |
 +| ::: | :::                            U  | adjektivum přivlastňovací (na "-ův" i "-in") |
 +| ::: | :::                            G  | adjektivum odvozené od slovesného tvaru přítomného přechodníku |
 +| ::: | :::                            M  | adjektivum odvozené od slovesného tvaru minulého přechodníku |
 +| ::: | :::                            O  | adjektiva "svůj", "nesvůj", "tentam" (nezájmenné výrazy v přísudkové/doplňkové pozici)  |
 +|  P | pronomen (zájmeno)          |  P  | osobní zájmeno |
 +| ::: | :::                            H  | krátký tvar osobního zájmena ("mě", "mi", "ti", "mu" ...) |
 +| ::: | :::                            5  | zájmeno "on", "oni" ve tvarech po předložce (tj. "n-": "něj", "něho", "nich" ...) | 
 +| ::: | :::                            6  | reflexívní zájmeno "se" v dlouhých tvarech ("sebe", "sobě", "sebou") |
 +| ::: | :::                            7  | reflexívní zájmeno "se", "si" pouze v těchto tvarech, a dále "ses", "sis" |
 +| ::: | :::                            D  | ukazovací zájmeno ("ten", "onen" ...)  |
 +| ::: | :::                            S  | přivlastňovací zájmeno "můj", "tvůj", "jeho" (vč. plurálu) |
 +| ::: | :::                            8  | přivlastňovací zájmeno "svůj" |
 +| ::: | :::                            1  | vztažné přivlastňovací zájmeno ("jehož", "jejíž" ...) |
 +| ::: | :::                            Z  | neurčité zájmeno ("nějaký", "některý", "číkoli", "cosi" ...) |
 +| ::: | :::                            L  | neurčité zájmeno "všechen", "sám"  |
 +| ::: | :::                            W  | záporné zájmeno ("nic", "nikdo", "nijaký", "žádný" ...) |
 +| ::: | :::                            4  | vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: "jaký", "který", "čí" ...) |
 +| ::: | :::                            J  | vztažné zájmeno "jenž" ("již" ...), bez předložky |
 +| ::: | :::                            9  | vztažné zájmeno "jenž", "již" ... po předložce ("n-": "něhož", "níž" ...) |
 +| ::: | :::                            K  | tázací nebo vztažné zájmeno "kdo", vč. tvarů s "-ž" a "-s" |
 +| ::: | :::                            Q  | tázací nebo vztažné zájmeno "co", "copak", "cožpak" |
 +| ::: | :::                            E  | vztažné zájmeno "což" |
 +|  C  | numerál (číslovka, nebo číselný výraz s číslicemi) |  l  | číslovka základní 1--4 + "nejeden" |
 +| ::: | :::                            n  | číslovka základní 5--99, i pokud je součástí složené číslovky psané dohromady ("dvacetpět", "stotřicet", "pětapůl") |
 +| ::: | :::                            z  | číslovka základní se substantivním skloňováním ("sto", "milion", "nula" apod.) |
 +| ::: | :::                            a  | číslovka základní neurčitá a tázací ("mnoho", "tolik", "kolik") |
 +| ::: | :::                            y  | číslovka dílová ("půl", "polovic", "polovina") |
 +| ::: | :::                            r  | číslovka řadová |
 +| ::: | :::                            w  | číslovka řadová neurčitá a tázací  |
 +| ::: | :::                            d  | číslovka druhová a souborová ("dvojí", "obojí", "čtverý" včetně tvarů "dvoje", "oboje", "čtvery"; "obé"; "jedny") |
 +| ::: | :::                            h  | číslovka druhová a souborová neurčitá a tázací |
 +| ::: | :::                            j  | číslovka úhrnná ("čtvero", "patero", "devatero", "dvé", "tré") |
 +| ::: | :::                            k  | číslovka úhrnná neurčitá a tázací ("několikero", "tolikero", "kolikero") |
 +| ::: | :::                            u  | číslovka násobná (adjektivní typ: "dvojitý", "osminásobný") |
 +| ::: | :::                            3  | číslovka násobná neurčitá a tázací (adjektivní typ: "mnohonásobný", "xnásobný", "kolikanásobný") |
 +| ::: | :::                            v  | číslovka násobná (adverbiální typ, včetně spřežek: "pětkrát", "osminásobně", "trojnásob", "jednou") |
 +| ::: | :::                            o  | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek: "mnohokrát", "několikanásobně", "pokolikáté", "naponěkolikáté" ...) |
 +| ::: | :::                            =  | číslo psané arabskými číslicemi |
 +| ::: | :::                            }  | číslo psané římskými číslicemi |
 +|  V | verbum (sloveso)            |  f  | infinitiv  |
 +| ::: | :::                            B  | tvar přítomného nebo budoucího času |
 +| ::: | :::                            t  | archaický tvar přítomného nebo budoucího času (zakončení "-ť") |
 +| ::: | :::                            i  | tvar rozkazovacího způsobu |
 +| ::: | :::                            c  | kondicionál slovesa být ("by", "bych", "bys", "bychom", "byste") |
 +| ::: | :::                            p  | tvar minulého aktivního příčestí (včetně přidaného "-s") |
 +| ::: | :::                            q  | archaický tvar minulého aktivního příčestí (zakončení "-ť") |
 +| ::: | :::                            s  | tvar pasívního příčestí (vč. přidaného "-s") |
 +| ::: | :::                            e  | tvar přechodníku přítomného ("-e", "-íc", "-íce") |
 +| ::: | :::                            m  | tvar přechodníku minulého, příp. (zastarale) přechodník přítomný dokonavý |
 +|  D | adverbium (příslovce)        g  | příslovce (s určením stupně a negace; "velký", "zajímavý" ...) |
 +| ::: | :::                            b  | příslovce (bez určení stupně a negace; "pozadu", "naplocho" ...) |
 +|  R | prepozice (předložka)        R  | předložka obyčejná |
 +| ::: | :::                            V  | předložka vokalizovaná ("ve", "pode", "ku" ...) |
 +| ::: | :::                            F  | součást předložky, která nikdy nestojí samostatně ("narozdíl", "vzhledem" ...) |
 +|  J | konjunkce (spojka)          |  <nowiki>^</nowiki>  | spojka souřadicí |
 +| ::: | :::                            ,  | spojka podřadicí (vč. "aby" a "kdyby" ve všech tvarech) |
 +| ::: | :::                            *  | spojka: operátor ("plus", "minus", "x" |
 +|  T | partikule (částice)          T  | částice |       
 +|  I | interjekce (citoslovce)      I  | citoslovce |
 +|  S   | segment                      |  2  | prefixoid (samostatně stojící předpona nebo předpona oddělená spojovníkem) |
 +| ::: | :::                            [ ]  | u sufixoidů se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, k jakému slovu se sufixoid vztahuje |
 +|  B | zkratka |  [ ]  | u zkratek se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, jaké slovo zkratka zkracuje  |
 +|  Z | interpunkce, hranice věty    :  | interpunkce všeobecně  |
 +| ::: | :::                            0  | nekoncová interpunkce (tečka za zkratkou, číslicí apod.) |
 +|  F | cizí slovo |  %  | cizí slovo |
 +|  X | neznámý, neurčený, neurčitelný slovní druh |  @  | morfologickou analýzou nerozpoznaný tvar |
 +| ::: | :::                            x  | slovní druh neurčen/neznámý |
  
-==== Pozice 2 - Detailní určení slovního druhu ==== 
- 
-Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné jednoznačně vyvodit hlavní [[seznamy:tagy#pozice_1_-_slovni_druh|slovní druh]]. 
- 
-^  Značka  ^  Význam  ^  Značka  ^  Význam  ^ 
-|  !  | zkratka jako adverbium |  R  | předložka, obyčejná | 
-|  *  | slovo "krát" (slovní druh: spojka) |  S  | zájmeno přivlastňovací "můj", "tvůj", "jeho" (vč. plurálu) | 
-|  ,  | spojka podřadicí (vč. "aby" a "kdyby" ve všech tvarech) |  T  | částice (slovní druh 'T') | 
-|  .  | zkratka jako adjektivum |  U  | adjektivum přivlastňovací (na "-ův" i "-in") | 
-|  :  | interpunkce všeobecně |  V  | předložka vokalizovaná ("ve", "pode", "ku", ...) | 
-|  ;  | zkratka jako substantivum |  W  | zájmena záporná ("nic", "nikdo", "nijaký", "žádný", ...) | 
-|  =  | číslo psané číslicemi (značkováno jako slovní druh: číslovka - 'C') |  X  | slovní tvar, který byl rozpoznán, ale značka (ve slovníku) chybí | 
-|  ?  | číslovka "kolik" |  Y  | zájmeno "co" spojené s předložkou ("oč", "nač", "zač") | 
-|  <nowiki>^</nowiki>  | spojka souřadicí |  Z  | zájmeno neurčité ("nějaký", "některý", "číkoli", "cosi", ...) | 
-|  }  | číslovka psaná římskými číslicemi |  a  | číslovka neurčitá ("mnoho", "málo", "tolik", "několik", "kdovíkolik", ...) | 
-|  ~  | zkratka jako sloveso |  b  | příslovce (bez určení stupně a negace; "pozadu", "naplocho", ...) | 
-|  @  | morfologickou analýzou nerozpoznaný tvar (slovní druh: 'X' = neznámý) |  c  | kondicionál slovesa být ("by", "bych", "bys", "bychom", "byste") | 
-|  0  | předložka s připojeným "-ň" (něj), "proň", "naň", atd. (značkováno jako slovní druh: zájmeno - 'P') |  d  | číslovka druhová, adjektivní skloňování ("jedny", "dvojí", "desaterý", ...) | 
-|  1  | vztažné přivlastňovací zájmeno "jehož", "jejíž", ... |  e  | slovesný tvar přechodníku přítomného ("-e", "-íc", "-íce") | 
-|  2  | slovo před pomlčkou |  f  | slovesný tvar: infinitiv | 
-|  3  | zkratka jako číslovka |  g  | příslovce (s určením stupně a negace; "velký", "zajímavý", ...) | 
-|  4  | vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: "jaký", "který", "čí", ...) |  h  | číslovky druhové "jedny" a "nejedny" | 
-|  5  | zájmeno "on" ve tvarech po předložce (tj. "n-": "něj", "něho", ...) |  i  | slovesný tvar rozkazovacího způsobu | 
-|  6  | reflexívní zájmeno "se" v dlouhých tvarech ("sebe", "sobě", "sebou") |  j  | číslovka druhová >= 4, substantivní postavení ("čtvero", "desatero", ...) | 
-|  7  | reflexívní zájmeno "se", "si" pouze v těchto tvarech, a dále "ses", "sis" |  k  | číslovka druhová >= 4, adjektivní postavení, krátký tvar ("čtvery", ...) | 
-|  8  | přivlastňovací zájmeno "svůj" |  l  | číslovky základní 1-4, "půl", ...; sto a tisíc v nesubstantivním skloňování | 
-|  9  | vztažné zájmeno "jenž", "již", ... po předložce ("n-": "něhož", "níž", ...) |  m  | slovesný tvar přechodníku minulého, příp. (zastarale) přechodník přítomný dokonavý | 
-|  A  | adjektivum obyčejné |  n  | číslovky základní >= 5 | 
-|  B  | sloveso, tvar přítomného nebo budoucího času |  o  | číslovky násobné neurčité ("-krát": "mnohokrát", "tolikrát", ...) | 
-|  C  | adjektivum, jmenný tvar |  p  | slovesné tvary minulého aktivního příčestí (včetně přidaného "-s") | 
-|  D  | zájmeno ukazovací ("ten", "onen", ...) |  q  | archaické slovesné tvary minulého aktivního příčestí (zakončení "-ť") | 
-|  E  | vztažné zájmeno "což" |  r  | číslovky řadové | 
-|  F  | součást předložky, která nikdy nestojí samostatně ("nehledě", "vzhledem", ...) |  s  | slovesné tvary pasívního příčestí (vč. přidaného "-s") | 
-|  G  | přídavné jméno odvozené od slovesného tvaru přítomného přechodníku |  t  | archaické slovesné tvary přítomného a budoucího času (zakončení "-ť") | 
-|  H  | krátké tvary osobních zájmen ("mě", "mi", "ti", "mu", ...) |  u  | číslovka tázací násobná "kolikrát" | 
-|  I  | citoslovce (značkováno jako slovní druh: citoslovce - 'I') |  v  | číslovky násobné ("-krát": "pětkrát", "poprvé" ...) | 
-|  J  | vztažné zájmeno "jenž" ("již", ...), bez předložky |  w  | číslovky neurčité s adjektivním skloňováním ("nejeden", "tolikátý", "několikátý" ...) | 
-|  K  | zájmeno tázací nebo vztažné "kdo", vč. tvarů s "-ž" a "-s" |  x  | zkratka, slovní druh neurčen/neznámý | 
-|  L  | zájmeno neurčité "všechen", "sám" |  y  | zlomky zakončené na "-ina" (značkováno jako slovní druh: číslovka - 'C') | 
-|  M  | přídavné jméno odvozené od slovesného tvaru minulého přechodníku |  z  | číslovka tázací řadová "kolikátý" | 
-|  N  | substantivum, obyčejné |  |  | 
-|  O  | samostatně stojící zájmena "svůj", "nesvůj", "tentam" |  |  | 
-|  P  | osobní zájmena (vč. tvaru "tys") |  |  | 
-|  Q  | zájmeno tázací/vztažné "co", "copak", "cožpak" | | | 
  
 ==== Pozice 3 - Jmenný rod ==== ==== Pozice 3 - Jmenný rod ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|  - neurčuje se |+|  maskulinum animatum (rod mužský životný) | 
 +|  I | maskulinum inanimatum (rod mužský neživotný) |
 |  F | femininum (ženský rod) | |  F | femininum (ženský rod) |
-|  H | femininum nebo neutrum (tedy nikoli maskulinum)* | 
-|  I | maskulinum inanimatum (rod mužský neživotný) | 
-|  M  | maskulinum animatum (rod mužský životný) | 
 |  N | neutrum (střední rod) | |  N | neutrum (střední rod) |
-|  Q femininum singuláru nebo neutrum plurálu (pouze u příčestí a jmenných adjektiv)* | +|  - neurčuje se |
-|  T | masculinum inanimatum nebo femininum (jen plurál u příčestí a jmenných adjektiv)* | +
-|  X | libovolný rod (F/M/I/N) | +
-|  Y | masculinum (animatum nebo inanimatum)* | +
-|  Z | 'nikoli femininum' (tj. M/I/N; především u příslovcí)* | +
- +
-* Tato značka je k dispozici pouze v korpusech: [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2005|SYN2005]], [[cnk:syn2000|SYN2000]], [[cnk:orwell|ORWELL]].+
  
 ==== Pozice 4 - Číslo ==== ==== Pozice 4 - Číslo ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
 +|  S | singulár (jednotné číslo) |
 +|  P | plurál (množné číslo) |
 +|  D | duál (pouze 7. pád feminin) |
 |  - | neurčuje se | |  - | neurčuje se |
-|  D | duál (pouze 7. pád feminin) | 
-|  P | plurál (množné číslo) | 
-|  S | singulár (jednotné číslo) | 
-|  W  | pouze v kombinaci s jmenným rodem 'Q' (singulár pro feminina, plurál pro neutra)* | 
-|  X | libovolné číslo (P/S/D) | 
- 
-* Tato značka je k dispozici pouze v korpusech: [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2005|SYN2005]], [[cnk:syn2000|SYN2000]], [[cnk:orwell|ORWELL]]. 
  
 ==== Pozice 5 - Pád ==== ==== Pozice 5 - Pád ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|  - | neurčuje se | 
 |  1 | nominativ (1. pád) | |  1 | nominativ (1. pád) |
 |  2 | genitiv (2. pád) | |  2 | genitiv (2. pád) |
Řádek 155: Řádek 175:
 |  6 | lokál (6. pád) | |  6 | lokál (6. pád) |
 |  7 | instrumentál (7. pád) | |  7 | instrumentál (7. pád) |
-|  X libovolný pád (1/2/3/4/5/6/7)* | +|  - neurčuje se |
- +
-* Tato značka je k dispozici pouze v korpusech: [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2005|SYN2005]], [[cnk:syn2000|SYN2000]], [[cnk:orwell|ORWELL]].+
  
 ==== Pozice 6 - Přivlastňovací rod ==== ==== Pozice 6 - Přivlastňovací rod ====
Řádek 166: Řádek 184:
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
 +|  M  | maskulinum animatum (rod mužský životný) |
 +|  F | femininum (ženský rod) |
 |  - | neurčuje se | |  - | neurčuje se |
-|  F | femininum (ženský rod) | 
-|  M  | maskulinum animatum (rod mužský životný) | 
-|  X | libovolný rod (F/M/I/N) | 
-|  Z | 'nikoli femininum' (tj. M/I/N; u přivlastňovacích adjektiv)* | 
- 
-* Tato značka je k dispozici pouze v korpusech: [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2005|SYN2005]], [[cnk:syn2000|SYN2000]], [[cnk:orwell|ORWELL]]. 
  
 ==== Pozice 7 - Přivlastňovací číslo ==== ==== Pozice 7 - Přivlastňovací číslo ====
Řádek 179: Řádek 193:
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
 +|  S | singulár (jednotné číslo) |
 +|  P  | plurál (množné číslo) |
 |  - | neurčuje se | |  - | neurčuje se |
-|  P  | plurál (množné číslo) | 
-|  S | singulár (jednotné číslo) | 
  
 ==== Pozice 8 - Osoba ==== ==== Pozice 8 - Osoba ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|  - | neurčuje se | 
 |  1 | 1. osoba | |  1 | 1. osoba |
 |  2 | 2. osoba | |  2 | 2. osoba |
 |  3 | 3. osoba | |  3 | 3. osoba |
-|  libovolná osoba (1/2/3)* | +|  - neurčuje se |
- +
-* Tato značka je k dispozici pouze v korpusech: [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2005|SYN2005]], [[cnk:syn2000|SYN2000]], [[cnk:orwell|ORWELL]].+
  
 ==== Pozice 9 - Čas ==== ==== Pozice 9 - Čas ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|  - | neurčuje se | 
-|  F | futurum (budoucí čas) | 
-|  H  | minulost nebo přítomnost (P/R)* | 
 |  P | prézens (přítomný čas) | |  P | prézens (přítomný čas) |
 |  R | minulý čas | |  R | minulý čas |
-|  X libovolný čas (F/R/P)+|  F futurum (budoucí čas) | 
- + - neurčuje se |
-* Tato značka je k dispozici pouze v korpusech: [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2005|SYN2005]], [[cnk:syn2000|SYN2000]], [[cnk:orwell|ORWELL]].+
  
 ==== Pozice 10 - Stupeň ==== ==== Pozice 10 - Stupeň ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
 +|  1 | 1. stupeň (pozitiv) |
 +|  2 | 2. stupeň (komparativ) |
 +|  3  | 3. stupeň (superlativ) |
 |  - | neurčuje se | |  - | neurčuje se |
-|  1 | 1. stupeň | 
-|  2 | 2. stupeň | 
-|  3  | 3. stupeň | 
  
 ==== Pozice 11 - Negace ==== ==== Pozice 11 - Negace ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|  - | neurčuje se | 
 |  A | afirmativ (bez negativní předpony "ne-") | |  A | afirmativ (bez negativní předpony "ne-") |
 |  N  | negace (tvar s negativní předponou "ne-") | |  N  | negace (tvar s negativní předponou "ne-") |
 +|  - | neurčuje se |
  
 ==== Pozice 12 - Aktivum/pasivum ==== ==== Pozice 12 - Aktivum/pasivum ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|  - | neurčuje se | 
 |  A  | aktivum nebo 'nikoli pasívum' | |  A  | aktivum nebo 'nikoli pasívum' |
 |  P | pasívum | |  P | pasívum |
 +|  - | neurčuje se |
  
-==== Pozice 13 - Nepoužito ====+==== Pozice 13 - Vid ====
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|   | neurčuje se |+|  P | perfektivum (dokonavé sloveso) | 
 + I | imperfektivum (nedokonavé sloveso) | 
 +|  B  | obouvidé sloveso | 
 +|  -    | neurčuje se |
  
 ==== Pozice 14 - Nepoužito ==== ==== Pozice 14 - Nepoužito ====
Řádek 243: Řádek 253:
  
 ^  Značka  ^  Význam  ^ ^  Značka  ^  Význam  ^
-|  - | neurčuje se ("základní" tvar pro kategorie v pozicích 1-14) | +|  1  | varianta víceméně rovnocenná | 
- 1 | variantavíceméně rovnocenná ("méně častá"+|  2  varianta gramaticky nebo stylisticky příznaková, nehovorová (obvykle řídká, knižní nebo archaická) 
-|  2 | řídká, archaická nebo knižní varianta +|  3  další varianta gramaticky nebo stylisticky příznakovánehovorová 
-|  3 | velmi archaický tvartéž hovorový* +|  4  další varianta gramaticky nebo stylisticky příznakovánehovorová 
-|  4 | velmi archaický nebo knižní tvarpouze spisovný (ve své době)* +|  5  další varianta stylisticky příznakováhovorová 
-|  5 | hovorový tvarale v zásadě tolerovaný ve veřejných projevech* +|  6  varianta stylisticky příznaková, hovorová (obvykle koncovka standardní obecné češtiny) | 
-|  6 | hovorový tvar (koncovka standardní obecné češtiny) | +|  7  další varianta stylisticky příznakováhovorová 
-|  7 | hovorový tvar (koncovka standardní obecné češtiny)varianta k '6'+|  8  další varianta stylisticky příznaková, hovorová 
-|  8 | zkratky +|  9  | speciální použití | 
-|  9   | speciální použití (tvary zájmen po předložkách apod.) + -  | neurčuje se ("základní" tvar pro kategorie v pozicích 1-14) |
- +
-* Některé značky jsou si velice blízké a je obtížné mezi nimi rozlišovat. V korpusech [[cnk:syn2015|SYN2015]] a [[cnk:syn:verze4|SYN v4]] byly proto značky 3,4 převedeny na 2 a značky 5,7 na 6. +
- +
-==== Pozice 16 Vid ==== +
- +
-Tato pozice byla k původní sadě doplněna na základě slovníku morfologické analýzy. Tato pozice není k dispozici v korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]]. +
- +
- Značka  ^  Význam +
-|  -    | neurčuje se +
-|  P | perfektivum (dokonavé sloveso+
-|  I | imperfektivum (nedokonavé sloveso) | +
-|  B  | obouvidé sloveso |+
  
  
- --- //Jan Hajič, Václav Cvrček//