AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2020:tag [2020/12/22 22:31] – [2. pozice Detailní určení slovního druhu] jankrivancnk:syn2020:tag [2021/06/18 12:44] (aktuální) – [Segment (S)] jankrivan
Řádek 1: Řádek 1:
-~~NOTOC~~ 
 ====== Korpus SYN2020: Morfologické značkování ====== ====== Korpus SYN2020: Morfologické značkování ======
  
Řádek 13: Řádek 12:
 U cizích slov se značkují pouze první dvě pozice. Na 1. pozici se uvádí hodnota **F**, na 2. pozici je vždy hodnota **%**. U cizích slov se značkují pouze první dvě pozice. Na 1. pozici se uvádí hodnota **F**, na 2. pozici je vždy hodnota **%**.
  
-Jako cizí slova se označují jen vybraná cizí slova a slovní spojení, jež se často vyskytují v českých textech; mnoho cizích slov zůstává nerozpoznaných (tag %%X@---%%), v některých případech nebyla dosud odhalena (či správně vyřešena) homonymie cizích slov a tvarů českých slov.+Jako cizí slova se označují jen vybraná cizí slova a slovní spojení, jež se často vyskytují v českých textech; mnoho cizích slov zůstává nerozpoznaných (tag %%X@-------------%%), v některých případech nebyla dosud odhalena (či správně vyřešena) homonymie cizích slov a tvarů českých slov.
  
 Pojmenování cizího původu běžně fungující v českých větách (zvl. slova, která se v češtině skloňují) považujeme za slova česká, nesklonná slova, která samostatně v českých textech fungovat nemohou, označujeme jako cizí; ve spojení //přes New York//, tak bude mít token //New// slovní druh **F** (cizí slovo) a token //York// slovní druh **N** (substantivum). Pojmenování cizího původu běžně fungující v českých větách (zvl. slova, která se v češtině skloňují) považujeme za slova česká, nesklonná slova, která samostatně v českých textech fungovat nemohou, označujeme jako cizí; ve spojení //přes New York//, tak bude mít token //New// slovní druh **F** (cizí slovo) a token //York// slovní druh **N** (substantivum).
Řádek 21: Řádek 20:
  
 U zkratek se značkují pouze první dvě pozice. Na 1. pozici je hodnota **B**, na 2. pozici se uvádí detailní určení slovního druhu, který zkratka zastupuje, tedy např. **N** pro standardní substantiva, **R** pro předložky, **g** pro stupňovaná adverbia. U zkratek se značkují pouze první dvě pozice. Na 1. pozici je hodnota **B**, na 2. pozici se uvádí detailní určení slovního druhu, který zkratka zastupuje, tedy např. **N** pro standardní substantiva, **R** pro předložky, **g** pro stupňovaná adverbia.
-Např. //kol// může mít značku %%BN-------------%% (když zastupuje substantivum, např. slovo //kolega//) nebo %%BR-------------%% (když zastupuje předložku //kolem//).+Např. //kol// může mít značku %%BN-------------%% (když zastupuje substantivum, např. slovo //kolega//)nebo %%BR-------------%% (když zastupuje předložku //kolem//).
  
 Poznámka: běžně skloňovaná zkratková slova (např. //ČEDOK//, //mašíbl//, //smska//) mají slovní druh podle své funkce ve větě.  Poznámka: běžně skloňovaná zkratková slova (např. //ČEDOK//, //mašíbl//, //smska//) mají slovní druh podle své funkce ve větě. 
Řádek 29: Řádek 28:
 Nový slovní druh **S** zahrnuje dva typy slovních částí: prefixoidy a sufixoidy. Nový slovní druh **S** zahrnuje dva typy slovních částí: prefixoidy a sufixoidy.
  
-Jako **prefixoidy** se značkují první části složených slov, které se obvykle nevyskytují samostatně, ale v daném textu jsou odděleny (nejčastěji spojovníkem a mezerou) od následujícího slova, např. __//troj//__ //- až pětipodlažní//, původně psáno jako //troj- až pětipodlažní//). Značku **S** dostávají také vymezené slovní části, které byly kompozita odtrženy procesem tokenizace (např. __//makro//__ //- úroveň//, původně psáno jako //makro-úroveň//; viz popis procesu [[cnk:syn2020:tokenizace]]). U prefixoidů se značkují pouze první dvě pozice. Na 2. pozici se vždy uvádí hodnota **2**.+Jako **prefixoidy** se značkují první části složených slov, které se obvykle nevyskytují samostatně, ale v daném textu jsou odděleny (nejčastěji spojovníkem a mezerou) od následujícího slova, např. __//troj//__ //- až pětipodlažní//, původně psáno jako //troj- až pětipodlažní//). Značku **S** dostávají také vymezené slovní části, které byly od kompozita odtrženy procesem tokenizace (např. __//makro//__ //- úroveň//, původně psáno jako //makro-úroveň//; viz popis procesu [[cnk:syn2020:tokenizace]]). U prefixoidů se značkují pouze první dvě pozice. Na 2. pozici se vždy uvádí hodnota **2**.
  
-Jako **sufixoidy** se značkují pouze striktně vymezené koncové části ohebných slov po lomítku (a případně po spojovníku), jimiž pisatel značí morfologickou alternativu: např. //učitel / // __//ka//__, //podepsal / -// __//a//__. V tagu sufixoidy přebírají na dalších pozicích všechny značky od morfologické třídy, kterou zastupují, např. //ka// z výše uvedeného příkladu bude mít tag %%SNFS1-----A----%%.+Jako **sufixoidy** se značkují pouze striktně vymezené koncové části substantiv a adjektiv po lomítku (a případně po spojovníku), jimiž pisatel značí morfologickou alternativu: např. //učitel / // __//ka//__, //pověřený / -// __//á//__. U slovesných příčestí (např. //viděl / a//, //unaven / -a//) budou kvůli chybě ve zpracování sufixoidy anotovány až od korpusu SYNv10. V tagu sufixoidy přebírají na dalších pozicích všechny značky od morfologické třídy, kterou zastupují, např. //ka// z výše uvedeného příkladu bude mít tag %%SNFS1-----A----%%.
  
 ==== Slovnědruhové přehodnocení některých skupin ==== ==== Slovnědruhové přehodnocení některých skupin ====
Řádek 50: Řádek 49:
 === Zvláštní jmenné tvary adjektiv === === Zvláštní jmenné tvary adjektiv ===
  
-Jako **jmenné tvary adjektiv (A, detailní určení slovního druhu C)** se nově značkují ustrnulé adjektivní tvary v rámci předložkové konstrukce, která celá funguje jako adverbiále (//po anglicku//, //do růžova//, //do mrtva//). Tyto tvary dostávají značku AC se značením pádu (např. //anglicku// ACNS6-----A----) a jejich lemma se rovná tvaru (tj. např. lemma //anglicku//). Dříve byly tyto tvary nejednotně značeny buď jako tvar teoretického substantiva (N) (lemma //anglicko//), nebo jako adverbium (D) (lemma //růžova//), nebo jako jmenný tvar adjektiva (A) (lemma //mrtvý//).+Jako **jmenné tvary adjektiv (A, detailní určení slovního druhu C)** se nově značkují ustrnulé adjektivní tvary v rámci předložkové konstrukce, která celá funguje jako adverbiále (//po anglicku//, //do růžova//, //do mrtva//). Tyto tvary dostávají značku AC se značením pádu (např. //anglicku// ACNS6-----A----) a jejich lemma se rovná tvaru (tj. např. lemma //anglicku//). Seznam ustrnulých jmenných tvarů je uveden ve [[cnk:syn2020:seznamy:jmenne_tvary_sublemmata#zvlastni_lemmatizace_ustrnulych_jmennych_tvaru_po_predlozkach|zvláštní sekci]]. Dříve byly tyto tvary nejednotně značeny buď jako tvar teoretického substantiva (N) (lemma //anglicko//), nebo jako adverbium (D) (lemma //růžova//), nebo jako jmenný tvar adjektiva (A) (lemma //mrtvý//).
  
 Poznámky ke značkování:  Poznámky ke značkování: 
Řádek 59: Řádek 58:
 ===== 2. pozice Detailní určení slovního druhu ===== ===== 2. pozice Detailní určení slovního druhu =====
  
-Souvztažný přehled značek na 1. a 2. pozici najdete na [[cnk:syn2020:tag:prehled_pozic_1_a_2|zvláštní stránce]]. +Souhrnný přehled značek na 1. a 2. pozici najdete na [[cnk:syn2020:tag:prehled_pozic_1_a_2|zvláštní stránce]].
-Přehled značek na druhé pozici (v abecedním pořadí) pro SYN2020 najdete [[cnk:syn2020:tag:pozice2|zde]].+
  
 Původní funkce některých značek byly kvůli změnám ve slovnědruhovém značení **zrušeny**: Původní funkce některých značek byly kvůli změnám ve slovnědruhovém značení **zrušeny**:
Řádek 72: Řádek 70:
   * **2** (prefixoidy)   * **2** (prefixoidy)
  
-V souvislosti se změnami v **tokenizaci** byla vytvořena nová značka **0** u slovního druhu **Z** pro identifikaci nekoncové interpunkce, která se týká tečky, dvojtečky, vykřičníku a spojovníku. Hodnotu **0** dostávají tečka za zkratkou (//např .//), iniciálou (//T . G . M.//) nebo pořadovou číslicí (//22 .//) uprostřed věty, dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly původně psány dohromady (//Rakousko - Uhersko//, //bude - li//), viz též stránka [[cnk:syn2020:tokenizace]].+V souvislosti se změnami v **tokenizaci** byla vytvořena nová značka **0** u slovního druhu **Z** pro identifikaci nekoncové interpunkce, která se týká tečky, dvojtečky, vykřičníku a spojovníku. Hodnotu **0** dostávají tečka za zkratkou (//např .//), iniciálou (//T . G . M.//) nebo pořadovou číslicí (//22 .//) uprostřed věty, dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly ve zdrojovém textu psány dohromady (//Rakousko - Uhersko//, //bude - li//), viz též stránka [[cnk:syn2020:tokenizace]].
  
 Komplexně bylo upraveno **členění číslovek**, u nichž byla funkce většiny značek pro detailní určení slovního druhu změněna (k slovnědruhovému značení číslovek viz též předchozí oddíl): Komplexně bylo upraveno **členění číslovek**, u nichž byla funkce většiny značek pro detailní určení slovního druhu změněna (k slovnědruhovému značení číslovek viz též předchozí oddíl):
Řádek 83: Řádek 81:
  
 ^ značka ^ nová funkce ^ příklady ^ původní funkce značky ^ ^ značka ^ nová funkce ^ příklady ^ původní funkce značky ^
-| **l** | číslovka základní 1-4 + nejeden | "jeden", "dva", "oba", "tři", "čtyři", "nejeden" | číslovky základní 1-4, „půl“…; sto a tisíc v nesubstantivním skloňování | +| **l** | číslovka základní 1--4 + nejeden | "jeden", "dva", "oba", "tři", "čtyři", "nejeden" | číslovky základní 1--4, „půl“ …; "sto"tisícv nesubstantivním skloňování | 
-| **n** | číslovky základní 5-99 + jejich slitky i s dalšími číslovkami | "pět", "šest", "dvacet", "pětaosmdesát"...; "dvacetpět", "pětset", "stotřicet", "pětapůl"… | číslovky základní >= 5 |+| **n** | číslovky základní 5--99 + jejich slitky i s dalšími číslovkami | "pět", "šest", "dvacet", "pětaosmdesát"...; "dvacetpět", "pětset", "stotřicet", "pětapůl" … | číslovky základní >= 5 |
 | **z** | číslovka základní se substantivním skloňováním | "sto", "tisíc", "milion", "triliarda"...; "nula", "raz" | číslovka tázací řadová „kolikátý“ | | **z** | číslovka základní se substantivním skloňováním | "sto", "tisíc", "milion", "triliarda"...; "nula", "raz" | číslovka tázací řadová „kolikátý“ |
-| **a** | číslovka základní neurčitá a tázací | "mnoho", "tolik", "několik", "kdovíkolik", "kolik" | číslovka neurčitá („mnoho“, „málo“, „tolik“, „několik“, „kdovíkolik“…) | +| **a** | číslovka základní neurčitá a tázací | "mnoho", "tolik", "několik", "kdovíkolik", "kolik" | číslovka neurčitá („mnoho“, „málo“, „tolik“, „několik“, „kdovíkolik“ …) | 
-| **y** | číslovka dílová | "půl" , "polovic", "čtvrt"; "polovina", "třetina", "osmina"...| zlomky zakončené na „-ina“ (značkováno jako slovní druh: číslovka - 'C') |+| **y** | číslovka dílová | "půl" , "polovic", "čtvrt"; "polovina", "třetina", "osmina" ...| zlomky zakončené na „-ina“ (značkováno jako slovní druh: číslovka -- 'C') |
 | **r** | číslovka řadová | "první", "druhý", "třetí", "pátý" | číslovky řadové | | **r** | číslovka řadová | "první", "druhý", "třetí", "pátý" | číslovky řadové |
 | **w** | číslovka řadová neurčitá a tázací | "tolikátý", "několikátý", "kolikátý" | číslovky neurčité s adjektivním skloňováním („nejeden“, „tolikátý“, „několikátý“ …) | | **w** | číslovka řadová neurčitá a tázací | "tolikátý", "několikátý", "kolikátý" | číslovky neurčité s adjektivním skloňováním („nejeden“, „tolikátý“, „několikátý“ …) |
-| **d** | číslovka druhová a souborová | "dvojí", "obojí", "čtverý", "desaterý"  včetně tvarů "dvoje", "oboje", "čtvery", "desatery"; "obé"; "jedny" | číslovka druhová, adjektivní skloňování („jedny“, „dvojí“, „desaterý“…) |+| **d** | číslovka druhová a souborová | "dvojí", "obojí", "čtverý", "desaterý"  včetně tvarů "dvoje", "oboje", "čtvery", "desatery"; "obé"; "jedny" | číslovka druhová, adjektivní skloňování („jedny“, „dvojí“, „desaterý“ …) |
 | **h** | číslovka druhová a souborová neurčitá a tázací | "několikerý", "tolikerý", "kolikerý" včetně tvarů "několikery", "tolikery", "kolikery"; "nejedny" | číslovky druhové „jedny“ a „nejedny“ | | **h** | číslovka druhová a souborová neurčitá a tázací | "několikerý", "tolikerý", "kolikerý" včetně tvarů "několikery", "tolikery", "kolikery"; "nejedny" | číslovky druhové „jedny“ a „nejedny“ |
-| **j** | číslovka úhrnná | "čtvero", "patero", "devatero", "dvé", "tré" | číslovka druhová >= 4, substantivní postavení („čtvero“, „desatero“…) | +| **j** | číslovka úhrnná | "čtvero", "patero", "devatero", "dvé", "tré" | číslovka druhová >= 4, substantivní postavení („čtvero“, „desatero“ …) | 
-| **k** | číslovka úhrnná neurčitá a tázací | "několikero", "tolikero", "kolikero" | číslovka druhová >= 4, adjektivní postavení, krátký tvar („čtvery“…) |+| **k** | číslovka úhrnná neurčitá a tázací | "několikero", "tolikero", "kolikero" | číslovka druhová >= 4, adjektivní postavení, krátký tvar („čtvery“ …) |
 | **u** | číslovka násobná (adjektivní typ) | "dvojitý", "trojitý"; "dvojnásobný", "osminásobný"; "desateronásobný"... | číslovka tázací násobná „kolikrát“ | | **u** | číslovka násobná (adjektivní typ) | "dvojitý", "trojitý"; "dvojnásobný", "osminásobný"; "desateronásobný"... | číslovka tázací násobná „kolikrát“ |
 | **3** | číslovka násobná neurčitá a tázací (adjektivní typ) | "mnohonásobný", "xnásobný", "kolikanásobný"... | zkratka jako číslovka | | **3** | číslovka násobná neurčitá a tázací (adjektivní typ) | "mnohonásobný", "xnásobný", "kolikanásobný"... | zkratka jako číslovka |
 | **v** | číslovka násobná (adverbiální typ, včetně spřežek) | "pětkrát", "osminásobně", "trojnásob", "jednou", "raz", "dvojitě", "čtvermo", "nadvakrát", "poprvé", "začtvrté", "napodesáté" | číslovky násobné („-krát“: „pětkrát“, „poprvé“ …) | | **v** | číslovka násobná (adverbiální typ, včetně spřežek) | "pětkrát", "osminásobně", "trojnásob", "jednou", "raz", "dvojitě", "čtvermo", "nadvakrát", "poprvé", "začtvrté", "napodesáté" | číslovky násobné („-krát“: „pětkrát“, „poprvé“ …) |
-| **o** | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) | "mnohokrát", "několikanásobně", "xkrát", "bůhvíkolikrát", "nejednou", "naněkolikrát","pokolikáté", "naponěkolikáté" | číslovky násobné neurčité („-krát“: „mnohokrát“, „tolikrát“…) | +| **o** | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) | "mnohokrát", "několikanásobně", "xkrát", "bůhvíkolikrát", "nejednou", "naněkolikrát","pokolikáté", "naponěkolikáté" | číslovky násobné neurčité („-krát“: „mnohokrát“, „tolikrát“ …) | 
-| **=** | číslo psané arabskými číslicemi | "12", "42", "1,5" | číslo psané číslicemi (značkováno jako slovní druh: číslovka - 'C') |+| **=** | číslo psané arabskými číslicemi | "12", "42", "1,5" | číslo psané číslicemi (značkováno jako slovní druh: číslovka -- 'C') |
 | **}** | číslo psané římskými číslicemi | "VII", "XXVI" | číslovka psaná římskými číslicemi | | **}** | číslo psané římskými číslicemi | "VII", "XXVI" | číslovka psaná římskými číslicemi |
  
Řádek 105: Řádek 103:
 Poznámka: U druhových a souborových číslovek se nově nerozlišuje, zda jde o číslovku s adjektivním dlouhým skloňování (původní lemma //čtverý//), nebo o číslovku se jmenným adjektivním skloňováním (původní lemma //čtvery//). Nově jsou všechny tyto číslovky lemmatizovány jen dlouhým tvarem na -ý (//čtverý//). Poznámka: U druhových a souborových číslovek se nově nerozlišuje, zda jde o číslovku s adjektivním dlouhým skloňování (původní lemma //čtverý//), nebo o číslovku se jmenným adjektivním skloňováním (původní lemma //čtvery//). Nově jsou všechny tyto číslovky lemmatizovány jen dlouhým tvarem na -ý (//čtverý//).
  
 +===== 13. pozice Vid =====
 +
 +Dříve nevyužívaná 13. pozice se nyní používá pro slovesný vid, a proto již tag nemá 16. pozici. Možné hodnoty jsou **I**, **P** a **B**. Na rozdíl od předchozích korpusů je značka **B** vyhrazena pro skutečná obouvidá slovesa (např. //soustředit se//, //analyzovat//, apod.), zatímco slovesa vidově homonymní (např. //zahýbat//, //nalétat// apod.) jsou desambiguována.
  
 ===== 15. pozice Varianta ===== ===== 15. pozice Varianta =====