AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2020:tag [2020/12/23 22:50] – [Nové členění číslovek] vladmirpetkeviccnk:syn2020:tag [2021/06/18 12:44] (aktuální) – [Segment (S)] jankrivan
Řádek 1: Řádek 1:
-~~NOTOC~~ 
 ====== Korpus SYN2020: Morfologické značkování ====== ====== Korpus SYN2020: Morfologické značkování ======
  
Řádek 31: Řádek 30:
 Jako **prefixoidy** se značkují první části složených slov, které se obvykle nevyskytují samostatně, ale v daném textu jsou odděleny (nejčastěji spojovníkem a mezerou) od následujícího slova, např. __//troj//__ //- až pětipodlažní//, původně psáno jako //troj- až pětipodlažní//). Značku **S** dostávají také vymezené slovní části, které byly od kompozita odtrženy procesem tokenizace (např. __//makro//__ //- úroveň//, původně psáno jako //makro-úroveň//; viz popis procesu [[cnk:syn2020:tokenizace]]). U prefixoidů se značkují pouze první dvě pozice. Na 2. pozici se vždy uvádí hodnota **2**. Jako **prefixoidy** se značkují první části složených slov, které se obvykle nevyskytují samostatně, ale v daném textu jsou odděleny (nejčastěji spojovníkem a mezerou) od následujícího slova, např. __//troj//__ //- až pětipodlažní//, původně psáno jako //troj- až pětipodlažní//). Značku **S** dostávají také vymezené slovní části, které byly od kompozita odtrženy procesem tokenizace (např. __//makro//__ //- úroveň//, původně psáno jako //makro-úroveň//; viz popis procesu [[cnk:syn2020:tokenizace]]). U prefixoidů se značkují pouze první dvě pozice. Na 2. pozici se vždy uvádí hodnota **2**.
  
-Jako **sufixoidy** se značkují pouze striktně vymezené koncové části ohebných slov po lomítku (a případně po spojovníku), jimiž pisatel značí morfologickou alternativu: např. //učitel / // __//ka//__, //podepsal / -// __//a//__. V tagu sufixoidy přebírají na dalších pozicích všechny značky od morfologické třídy, kterou zastupují, např. //ka// z výše uvedeného příkladu bude mít tag %%SNFS1-----A----%%.+Jako **sufixoidy** se značkují pouze striktně vymezené koncové části substantiv a adjektiv po lomítku (a případně po spojovníku), jimiž pisatel značí morfologickou alternativu: např. //učitel / // __//ka//__, //pověřený / -// __//á//__. U slovesných příčestí (např. //viděl / a//, //unaven / -a//) budou kvůli chybě ve zpracování sufixoidy anotovány až od korpusu SYNv10. V tagu sufixoidy přebírají na dalších pozicích všechny značky od morfologické třídy, kterou zastupují, např. //ka// z výše uvedeného příkladu bude mít tag %%SNFS1-----A----%%.
  
 ==== Slovnědruhové přehodnocení některých skupin ==== ==== Slovnědruhové přehodnocení některých skupin ====
Řádek 71: Řádek 70:
   * **2** (prefixoidy)   * **2** (prefixoidy)
  
-V souvislosti se změnami v **tokenizaci** byla vytvořena nová značka **0** u slovního druhu **Z** pro identifikaci nekoncové interpunkce, která se týká tečky, dvojtečky, vykřičníku a spojovníku. Hodnotu **0** dostávají tečka za zkratkou (//např .//), iniciálou (//T . G . M.//) nebo pořadovou číslicí (//22 .//) uprostřed věty, dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly původně psány dohromady (//Rakousko - Uhersko//, //bude - li//), viz též stránka [[cnk:syn2020:tokenizace]].+V souvislosti se změnami v **tokenizaci** byla vytvořena nová značka **0** u slovního druhu **Z** pro identifikaci nekoncové interpunkce, která se týká tečky, dvojtečky, vykřičníku a spojovníku. Hodnotu **0** dostávají tečka za zkratkou (//např .//), iniciálou (//T . G . M.//) nebo pořadovou číslicí (//22 .//) uprostřed věty, dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly ve zdrojovém textu psány dohromady (//Rakousko - Uhersko//, //bude - li//), viz též stránka [[cnk:syn2020:tokenizace]].
  
 Komplexně bylo upraveno **členění číslovek**, u nichž byla funkce většiny značek pro detailní určení slovního druhu změněna (k slovnědruhovému značení číslovek viz též předchozí oddíl): Komplexně bylo upraveno **členění číslovek**, u nichž byla funkce většiny značek pro detailní určení slovního druhu změněna (k slovnědruhovému značení číslovek viz též předchozí oddíl):
Řádek 82: Řádek 81:
  
 ^ značka ^ nová funkce ^ příklady ^ původní funkce značky ^ ^ značka ^ nová funkce ^ příklady ^ původní funkce značky ^
-| **l** | číslovka základní 1-4 + nejeden | "jeden", "dva", "oba", "tři", "čtyři", "nejeden" | číslovky základní 1--4, „půl“ …; "sto" a "tisíc" v nesubstantivním skloňování |+| **l** | číslovka základní 1--4 + nejeden | "jeden", "dva", "oba", "tři", "čtyři", "nejeden" | číslovky základní 1--4, „půl“ …; "sto" a "tisíc" v nesubstantivním skloňování |
 | **n** | číslovky základní 5--99 + jejich slitky i s dalšími číslovkami | "pět", "šest", "dvacet", "pětaosmdesát"...; "dvacetpět", "pětset", "stotřicet", "pětapůl" … | číslovky základní >= 5 | | **n** | číslovky základní 5--99 + jejich slitky i s dalšími číslovkami | "pět", "šest", "dvacet", "pětaosmdesát"...; "dvacetpět", "pětset", "stotřicet", "pětapůl" … | číslovky základní >= 5 |
 | **z** | číslovka základní se substantivním skloňováním | "sto", "tisíc", "milion", "triliarda"...; "nula", "raz" | číslovka tázací řadová „kolikátý“ | | **z** | číslovka základní se substantivním skloňováním | "sto", "tisíc", "milion", "triliarda"...; "nula", "raz" | číslovka tázací řadová „kolikátý“ |
Řádek 104: Řádek 103:
 Poznámka: U druhových a souborových číslovek se nově nerozlišuje, zda jde o číslovku s adjektivním dlouhým skloňování (původní lemma //čtverý//), nebo o číslovku se jmenným adjektivním skloňováním (původní lemma //čtvery//). Nově jsou všechny tyto číslovky lemmatizovány jen dlouhým tvarem na -ý (//čtverý//). Poznámka: U druhových a souborových číslovek se nově nerozlišuje, zda jde o číslovku s adjektivním dlouhým skloňování (původní lemma //čtverý//), nebo o číslovku se jmenným adjektivním skloňováním (původní lemma //čtvery//). Nově jsou všechny tyto číslovky lemmatizovány jen dlouhým tvarem na -ý (//čtverý//).
  
 +===== 13. pozice Vid =====
 +
 +Dříve nevyužívaná 13. pozice se nyní používá pro slovesný vid, a proto již tag nemá 16. pozici. Možné hodnoty jsou **I**, **P** a **B**. Na rozdíl od předchozích korpusů je značka **B** vyhrazena pro skutečná obouvidá slovesa (např. //soustředit se//, //analyzovat//, apod.), zatímco slovesa vidově homonymní (např. //zahýbat//, //nalétat// apod.) jsou desambiguována.
  
 ===== 15. pozice Varianta ===== ===== 15. pozice Varianta =====