AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:tagy [2013/11/10 21:41] – [Popis jednotlivých pozic značky] alexandrrosenseznamy:tagy [2022/04/18 18:32] (aktuální) jankrivan
Řádek 1: Řádek 1:
-===== Popis jednotlivých pozic značky =====+====== Morfologické značky (tagy) a jejich hodnoty ======
  
-Pozice jsou číslovány od 1 do 16 (16. pozice chybí v korpusech [[cnk:syn2000|SYN2000]][[cnk:orwell|ORWELL]] [[cnk:intercorp|InterCorp]]). Každé pozici odpovídá jiná gramatická kategorie:+Morfologické [[pojmy:tag|značky (tagy)]] jsou součástí výsledku (výstupem) [[pojmy:morfologicka_analyza|morfologické analýzy]], která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontextDalším výstupem analýzy je tzv. [[pojmy:lemma|lemma]], které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Počínaje korpusem [[cnk:syn2020|SYN2020]] se anotuje i zvláštní značka gramatických kategorií slovesa [[pojmy:verbtag|verbtag]] a pro varianty slov je zavedeno tzv. [[pojmy:lemma#sublemma|sublemma]]. 
 + 
 +Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi proto dochází k [[pojmy:desambiguace|desambiguaci]] (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější. 
 + 
 +Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk:syn|psané češtiny]]), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie). 
 + 
 +Morfologická analýza je předmětem neustálého vyvoje a zlepšování. V různých korpusech proto můžete narazit na různé verze analýzy, což se může projevit v odlišnostech jak u anotačního schématu, tak u samotných výsledků a jejich chybovosti. 
 +===== Struktura značky ===== 
 + 
 +[{{:seznamy:tagy_new.png?300|Popis tagu odpovídajícího slovním tvarům //otevříno, zavříno// v korpusu [[cnk:syn2020|SYN2020]]}}]\\ 
 +Každá značka je počínaje korpusem SYN2020 řetězcem 15 znaků (ke změnám ve značkování viz následující oddíl).  
 + 
 +Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka). 
 + 
 +V případě, že značka je tvořena symbolem, který má v rámci [[pojmy:regularni_vyrazy|regulárních výrazů]] speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]''
 + 
 +===== Změny v morfologickém značkování psaných korpusů ===== 
 + 
 +Se zveřejněním korpusu [[cnk:syn2020|SYN2020]], resp. [[cnk:syn:verze9|SYN (verze 9)]], se morfologická značka částečně změnila. V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo.  
 + 
 +=== Původní morfologická značka (vývoj značení) === 
 + 
 +1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici. 
 + 
 +2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. Všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic. 
 + 
 +3. S publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum)
 + 
 +Na [[seznamy:tagy_archiv|této stránce]] je k dispozici přehled pozic morfologické značky z celého tohoto období. Všechny průběžné změny popsané v bodech (1)--(3) jsou v tomto přehledu vyznačeny. 
 + 
 +=== Aktuální morfologická značka === 
 + 
 +Počínaje korpusem [[cnk:syn2020|SYN2020]] má morfologická značka 15 pozic. Značení slovesného vidu se přesunulo ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s původní morfologickou značkou.  
 + 
 +Zároveň však došlo ke změnám ve značení na jednotlivých pozicích: Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment). Na 2. pozici (detailní určení slovního druhu) jsou v souvislosti s novými slovními druhy zavedeny nové značky a jiné jsou naopak zrušeny, komplexně bylo upraveno členění číslovek a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dále dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu. Podrobný popis změn ve vztahu k původní značce je uveden na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]].  
 + 
 +Níže uvádíme kompletní přehled pozic aktuální morfologické značky. 
 + 
 +===== Nástroj pro sestavení morfologické značky ===== 
 + 
 +Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:novy_dotaz|KonText]]. 
 + 
 +===== Popis jednotlivých pozic aktuální morfologické značky ===== 
 + 
 +Pozice jsou číslovány od 1 do 15. Každé pozici odpovídá jiná gramatická kategorie:
  
   - [[seznamy:tagy#pozice_1_-_slovni_druh|Slovní druh]]   - [[seznamy:tagy#pozice_1_-_slovni_druh|Slovní druh]]
Řádek 15: Řádek 59:
   - [[seznamy:tagy#pozice_11_-_negace|Negace]]   - [[seznamy:tagy#pozice_11_-_negace|Negace]]
   - [[seznamy:tagy#pozice_12_-_aktivum_pasivum|Aktivum/pasivum]]   - [[seznamy:tagy#pozice_12_-_aktivum_pasivum|Aktivum/pasivum]]
-  - pozice nepoužita+  - [[seznamy:tagy#pozice_13_-_vid|Vid]]
   - pozice nepoužita   - pozice nepoužita
   - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]]   - [[seznamy:tagy#pozice_15_-_varianta_stylovy_priznak|Varianta (stylový příznak)]]
-  - [[seznamy:tagy#pozice_16_-_vid|Vid]]+ 
 +==== Pozice 1 Slovní druh ==== 
 + 
 +Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních (viz tabulka v následujícím oddíle): N (substantivum), A (adjektivum), P (zájmeno), C (číslovka), V (sloveso), D (adverbium), R (předložka), J (spojka), T (částice), I (citoslovce). Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela „tradiční“. Mezi slovní druhy se vedle tradičních slovních druhů dále řadí segment (S), zkratka (B), cizí slovo (F), interpunkce (Z) a neznámý slovní druh (X). 
 + 
 +Nové slovní druhy S, B a F jsou představeny na stránce [[cnk:syn2020:tag|morfologické značkování SYN2020]]. 
 + 
 +==== Pozice 2 Detailní určení slovního druhu ==== 
 + 
 +Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, přesněji sufixoid). 
 + 
 +==== Souhrnný přehled pozic 1 a 2 ==== 
 + 
 +^ Poz. 1 ^ Slovní druh  ^ Poz. 2 ^ Detailní určení slovního druhu ^ 
 + N | substantivum (podstatné jméno) |  N  | substantivum obyčejné | 
 +|  A    | adjektivum (přídavné jméno) |    | adjektivum obyčejné 
 +| ::: | :::                            C  | jmenný tvar adjektiva 
 +| ::: | :::                            U  | adjektivum přivlastňovací (na "-ův" i "-in") | 
 +| ::: | :::                            G  | adjektivum odvozené od slovesného tvaru přítomného přechodníku | 
 +| ::: | :::                            M  | adjektivum odvozené od slovesného tvaru minulého přechodníku | 
 +| ::: | :::                            O  | adjektiva "svůj", "nesvůj", "tentam" (nezájmenné výrazy v přísudkové/doplňkové pozici) 
 +|  P | pronomen (zájmeno)          |  P  | osobní zájmeno | 
 +| ::: | :::                            H  | krátký tvar osobního zájmena ("mě", "mi", "ti", "mu" ...) | 
 +| ::: | :::                            5  | zájmeno "on", "oni" ve tvarech po předložce (tj. "n-": "něj", "něho", "nich" ...) |  
 +| ::: | :::                            6  | reflexívní zájmeno "se" v dlouhých tvarech ("sebe", "sobě", "sebou") | 
 +| ::: | :::                            7  | reflexívní zájmeno "se", "si" pouze v těchto tvarech, a dále "ses", "sis"
 +| ::: | :::                            D  | ukazovací zájmeno ("ten", "onen" ...)  | 
 +| ::: | :::                            S  | přivlastňovací zájmeno "můj", "tvůj", "jeho" (vč. plurálu) | 
 +| ::: | :::                            8  | přivlastňovací zájmeno "svůj"
 +| ::: | :::                            1  | vztažné přivlastňovací zájmeno ("jehož", "jejíž" ...) | 
 +| ::: | :::                            Z  | neurčité zájmeno ("nějaký", "některý", "číkoli", "cosi" ...) | 
 +| ::: | :::                            L  | neurčité zájmeno "všechen", "sám" 
 +| ::: | :::                            W  | záporné zájmeno ("nic", "nikdo", "nijaký", "žádný" ...) | 
 +| ::: | :::                            4  | vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: "jaký", "který", "čí" ...) | 
 +| ::: | :::                            J  | vztažné zájmeno "jenž" ("již" ...), bez předložky | 
 +| ::: | :::                            9  | vztažné zájmeno "jenž", "již" ... po předložce ("n-": "něhož", "níž" ...) | 
 +| ::: | :::                            K  | tázací nebo vztažné zájmeno "kdo", vč. tvarů s "-ž" a "-s"
 +| ::: | :::                            Q  | tázací nebo vztažné zájmeno "co", "copak", "cožpak"
 +| ::: | :::                            E  | vztažné zájmeno "což"
 +|  C  | numerál (číslovka, nebo číselný výraz s číslicemi) |  l  | číslovka základní 1--4 + "nejeden"
 +| ::: | :::                            n  | číslovka základní 5--99, i pokud je součástí složené číslovky psané dohromady ("dvacetpět", "stotřicet", "pětapůl") | 
 +| ::: | :::                            z  | číslovka základní se substantivním skloňováním ("sto", "milion", "nula" apod.) | 
 +| ::: | :::                            a  | číslovka základní neurčitá a tázací ("mnoho", "tolik", "kolik") | 
 +| ::: | :::                            y  | číslovka dílová ("půl", "polovic", "polovina") | 
 +| ::: | :::                            r  | číslovka řadová | 
 +| ::: | :::                            w  | číslovka řadová neurčitá a tázací 
 +| ::: | :::                            d  | číslovka druhová a souborová ("dvojí", "obojí", "čtverý" včetně tvarů "dvoje", "oboje", "čtvery"; "obé"; "jedny") | 
 +| ::: | :::                            h  | číslovka druhová a souborová neurčitá a tázací | 
 +| ::: | :::                            j  | číslovka úhrnná ("čtvero", "patero", "devatero", "dvé", "tré") | 
 +| ::: | :::                            k  | číslovka úhrnná neurčitá a tázací ("několikero", "tolikero", "kolikero") | 
 +| ::: | :::                            u  | číslovka násobná (adjektivní typ: "dvojitý", "osminásobný") | 
 +| ::: | :::                            3  | číslovka násobná neurčitá a tázací (adjektivní typ: "mnohonásobný", "xnásobný", "kolikanásobný") | 
 +| ::: | :::                            v  | číslovka násobná (adverbiální typ, včetně spřežek: "pětkrát", "osminásobně", "trojnásob", "jednou") | 
 +| ::: | :::                            o  | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek: "mnohokrát", "několikanásobně", "pokolikáté", "naponěkolikáté" ...) | 
 +| ::: | :::                            =  | číslo psané arabskými číslicemi | 
 +| ::: | :::                            }  | číslo psané římskými číslicemi | 
 +|  V | verbum (sloveso)            |  f  | infinitiv 
 +| ::: | :::                            B  | tvar přítomného nebo budoucího času | 
 +| ::: | :::                            t  | archaický tvar přítomného nebo budoucího času (zakončení "-ť") | 
 +| ::: | :::                            i  | tvar rozkazovacího způsobu | 
 +| ::: | :::                            c  | kondicionál slovesa být ("by", "bych", "bys", "bychom", "byste") | 
 +| ::: | :::                            p  | tvar minulého aktivního příčestí (včetně přidaného "-s") | 
 +| ::: | :::                            q  | archaický tvar minulého aktivního příčestí (zakončení "-ť") | 
 +| ::: | :::                            s  | tvar pasívního příčestí (vč. přidaného "-s") | 
 +| ::: | :::                            e  | tvar přechodníku přítomného ("-e", "-íc", "-íce") | 
 +| ::: | :::                            m  | tvar přechodníku minulého, příp. (zastarale) přechodník přítomný dokonavý | 
 +|  D | adverbium (příslovce)        g  | příslovce (s určením stupně a negace; "velký", "zajímavý" ...) | 
 +| ::: | :::                            b  | příslovce (bez určení stupně a negace; "pozadu", "naplocho" ...) | 
 +|  R | prepozice (předložka)        R  | předložka obyčejná | 
 +| ::: | :::                            V  | předložka vokalizovaná ("ve", "pode", "ku" ...) | 
 +| ::: | :::                            F  | součást předložky, která nikdy nestojí samostatně ("narozdíl", "vzhledem" ...) | 
 +|  J | konjunkce (spojka)          |  <nowiki>^</nowiki>  | spojka souřadicí | 
 +| ::: | :::                            ,  | spojka podřadicí (vč. "aby" a "kdyby" ve všech tvarech) | 
 +| ::: | :::                            *  | spojka: operátor ("plus", "minus", "x"
 +|  T | partikule (částice)          T  | částice |        
 +|  I | interjekce (citoslovce)      I  | citoslovce | 
 +|  S   | segment                      |  2  | prefixoid (samostatně stojící předpona nebo předpona oddělená spojovníkem) | 
 +| ::: | :::                            | u sufixoidů se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, k jakému slovu se sufixoid vztahuje | 
 +|  B | zkratka |  [  | u zkratek se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, jaké slovo zkratka zkracuje 
 +|  Z | interpunkce, hranice věty    :  | interpunkce všeobecně 
 +| ::: | :::                            0  | nekoncová interpunkce (tečka za zkratkou, číslicí apod.) | 
 +|  F | cizí slovo |  %  | cizí slovo | 
 +|  X | neznámý, neurčený, neurčitelný slovní druh |  @  | morfologickou analýzou nerozpoznaný tvar | 
 +| ::: | :::                            x  | slovní druh neurčen/neznámý | 
 + 
 + 
 +==== Pozice 3 - Jmenný rod ==== 
 + 
 +^  Značka  ^  Význam 
 +|  M  | maskulinum animatum (rod mužský životný) | 
 +|  I | maskulinum inanimatum (rod mužský neživotný) | 
 +|  F | femininum (ženský rod) | 
 +|  N | neutrum (střední rod) | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 4 - Číslo ==== 
 + 
 +^  Značka  ^  Význam 
 +|  S | singulár (jednotné číslo) | 
 +|  P | plurál (množné číslo) | 
 +|  D | duál (pouze 7. pád feminin) | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 5 - Pád ==== 
 + 
 +^  Značka  ^  Význam 
 +|  1 | nominativ (1. pád) | 
 +|  2 | genitiv (2. pád) | 
 +|  3 | dativ (3. pád) | 
 +|  4 | akuzativ (4. pád) | 
 +|  5 | vokativ (5. pád) | 
 +|  6 | lokál (6. pád) | 
 +|  7 | instrumentál (7. pád) | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 6 - Přivlastňovací rod ==== 
 + 
 +Vyjadřuje rod subjektu nebo objektu, jemuž zájmeno nebo adjektivum přivlastňuje: //jeho/její (kniha)//, kde //jeho// je tagováno jako přivlastňovací maskulinum a //její// jako přivlastňovací femininum, analogicky u adjektiv //otcův/matčin (bratr)// je //otcův// značkován jako maskulinum a //matčin// jako femininum.  
 + 
 +Rody mužský neživotný a střední se nikdy jako samostatná kategorie nevyskytují. Rod mužský životný (M) se může vyskytnout jen u přivlastňovacích adjektiv. 
 + 
 +^  Značka  ^  Význam 
 +|  M  | maskulinum animatum (rod mužský životný) | 
 +|  F | femininum (ženský rod) | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 7 - Přivlastňovací číslo ==== 
 + 
 +Kategorie, která se uplatňuje u zájmen: //můj, tvůj, jeho// atp. představují přivlastňovací singulár, protože přivlastňují subjektu nebo objektu v singuláru, zatímco //náš, váš jejich// jsou označeny jako přivlastňovací plurál. 
 + 
 +^  Značka  ^  Význam 
 +|  S | singulár (jednotné číslo) | 
 +|  P  | plurál (množné číslo) | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 8 - Osoba ==== 
 + 
 +^  Značka  ^  Význam 
 +|  1 | 1. osoba | 
 +|  2 | 2. osoba | 
 +|  3 | 3. osoba | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 9 - Čas ==== 
 + 
 +^  Značka  ^  Význam 
 +|  P | prézens (přítomný čas) | 
 +|  R | minulý čas | 
 +|  F | futurum (budoucí čas) | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 10 - Stupeň ==== 
 + 
 +^  Značka  ^  Význam 
 +|  1 | 1. stupeň (pozitiv) | 
 +|  2 | 2. stupeň (komparativ) | 
 +|  3  | 3. stupeň (superlativ) | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 11 - Negace ==== 
 + 
 +^  Značka  ^  Význam 
 +|  A | afirmativ (bez negativní předpony "ne-") | 
 +|  N  | negace (tvar s negativní předponou "ne-") | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 12 - Aktivum/pasivum ==== 
 + 
 +^  Značka  ^  Význam 
 +|  A  | aktivum nebo 'nikoli pasívum'
 +|  P | pasívum | 
 +|  - | neurčuje se | 
 + 
 +==== Pozice 13 - Vid ==== 
 + 
 +^  Značka  ^  Význam 
 +|  P | perfektivum (dokonavé sloveso) | 
 +|  I | imperfektivum (nedokonavé sloveso) | 
 +|  B  | obouvidé sloveso | 
 +|  -    | neurčuje se | 
 + 
 +==== Pozice 14 - Nepoužito ==== 
 + 
 +^  Značka  ^  Význam 
 +|  -  | neurčuje se | 
 + 
 +==== Pozice 15 - Varianta (stylový příznak) ==== 
 + 
 +Značkování stylového příznaku je z podstaty věci značně subjektivní a vázané na širší kontext, který při automatickém zpracování nelze brát v úvahu. Hodnoty přisuzované jednotlivým jevům jsou založeny na hodnocení, které se objevují v tradičních jazykovědných příručkách, můžou tedy být zastaralé nebo zcela mylné. Doporučujeme proto údaje na této pozici buď zcela ignorovat nebo je brát s velkou rezervou. 
 + 
 +^  Značka  ^  Význam 
 +|  1  | varianta víceméně rovnocenná | 
 +|  2  | varianta gramaticky nebo stylisticky příznaková, nehovorová (obvykle řídká, knižní nebo archaická) | 
 +|  3  | další varianta gramaticky nebo stylisticky příznaková, nehovorová | 
 +|  4  | další varianta gramaticky nebo stylisticky příznaková, nehovorová | 
 +|  5  | další varianta stylisticky příznaková, hovorová | 
 +|  6  | varianta stylisticky příznaková, hovorová (obvykle koncovka standardní obecné češtiny) | 
 +|  7  | další varianta stylisticky příznaková, hovorová | 
 +|  8  | další varianta stylisticky příznaková, hovorová | 
 +|  9  | speciální použití | 
 +|  -  | neurčuje se ("základní" tvar pro kategorie v pozicích 1-14) | 
 + 
 + 
 +