Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize | ||
seznamy:tagy [2015/12/17 12:57] – [Změny v morfologickém značkování] michalskrabal | seznamy:tagy [2022/01/05 17:52] – [1. pozice: Slovní druh] vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== Morfologické značky (tagy) ====== | + | ====== Morfologické značky (tagy) |
- | Morfologické [[pojmy: | + | Morfologické [[pojmy: |
+ | |||
+ | Morfologická analýza je obecně nejednoznačná; | ||
Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk: | Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk: | ||
+ | Morfologická analýza je předmětem neustálého vyvoje a zlepšování. V různých korpusech proto můžete narazit na různé verze analýzy, což se může projevit v odlišnostech jak u anotačního schématu, tak u samotných výsledků a jejich chybovosti. | ||
===== Struktura značky ===== | ===== Struktura značky ===== | ||
- | [{{: | + | [{{: |
+ | Každá značka je počínaje korpusem SYN2020 řetězcem 15 znaků (ke změnám ve značkování viz následující oddíl). | ||
+ | |||
+ | Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. ' | ||
+ | |||
+ | V případě, že značka je tvořena symbolem, který má v rámci [[pojmy: | ||
+ | |||
+ | ===== Změny v morfologickém značkování psaných korpusů ===== | ||
+ | |||
+ | Se zveřejněním korpusu [[cnk: | ||
+ | |||
+ | === Původní morfologická značka (vývoj značení) === | ||
+ | |||
+ | 1. V prvních zveřejněných korpusech [[cnk: | ||
+ | |||
+ | 2. S uveřejněním korpusu [[cnk: | ||
+ | |||
+ | 3. S publikací korpusu [[cnk: | ||
+ | |||
+ | Na [[seznamy: | ||
- | Každá | + | === Aktuální morfologická |
- | V případě, že značka | + | Počínaje korpusem [[cnk: |
- | ===== Změny v morfologickém | + | Zároveň však došlo ke změnám ve značení na jednotlivých pozicích: Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment). Na 2. pozici (detailní určení slovního druhu) jsou v souvislosti s novými slovními druhy zavedeny nové značky a jiné jsou naopak zrušeny, komplexně bylo upraveno členění číslovek a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dále dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu. Podrobný popis změn ve vztahu k původní značce je uveden na stránce [[cnk: |
- | S uveřejněním korpusu [[cnk: | + | Níže uvádíme kompletní |
- | S uveřejněním korpusu [[cnk: | + | ===== Nástroj pro sestavení morfologické |
- | Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy: | + | Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy: |
- | ===== Popis jednotlivých pozic značky ===== | + | ===== Popis jednotlivých pozic aktuální morfologické |
- | Pozice jsou číslovány od 1 do 16 (16. pozice chybí pouze v korpusech [[cnk: | + | Pozice jsou číslovány od 1 do 15. Každé pozici odpovídá jiná gramatická kategorie: |
- [[seznamy: | - [[seznamy: | ||
Řádek 37: | Řádek 59: | ||
- [[seznamy: | - [[seznamy: | ||
- [[seznamy: | - [[seznamy: | ||
- | - pozice nepoužita | + | - [[seznamy: |
- pozice nepoužita | - pozice nepoužita | ||
- [[seznamy: | - [[seznamy: | ||
- | - [[seznamy: | ||
- | ==== Pozice 1 - Slovní druh ==== | ||
- | Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních. Přiřazení i těchto hlavních slovních | + | ==== 1. pozice: Slovní |
- | ^ Značka ^ Význam | + | Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních (viz tabulka v následujícím oddíle): |
- | | | + | |
- | | | + | Nové slovní druhy S, B a F jsou představeny na stránce [[cnk: |
- | | | + | |
- | | | + | ==== 2. pozice: Detailní určení slovního druhu ==== |
- | | | + | |
- | | | + | Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, přesněji sufixoid). |
- | | | + | |
- | | | + | |
- | | | + | |
- | | | + | |
- | | X | neznámý, neurčený, neurčitelný | + | |
- | | Z | interpunkce, hranice | + | |
- | ==== Pozice | + | ==== Souhrnný přehled pozic 1 a 2 ==== |
- | Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích | + | ^ Poz. 1 ^ Slovní druh ^ Poz. 2 ^ Detailní určení slovního druhu ^ |
+ | | N | substantivum (podstatné jméno) | N | substantivum obyčejné | | ||
+ | | A | adjektivum (přídavné jméno) | | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | P | pronomen (zájmeno) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | C | numerál (číslovka, nebo číselný výraz s číslicemi) | l | číslovka základní 1--4 + " | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | V | verbum (sloveso) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | D | adverbium (příslovce) | ||
+ | | ::: | ::: | ||
+ | | R | prepozice (předložka) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | J | konjunkce (spojka) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | T | partikule (částice) | ||
+ | | I | interjekce (citoslovce) | ||
+ | | S | segment | ||
+ | | ::: | ::: | ||
+ | | B | zkratka | [ ] | u zkratek se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, jaké slovo zkratka zkracuje | ||
+ | | Z | interpunkce, | ||
+ | | ::: | ::: | ||
+ | | F | cizí slovo | % | cizí slovo | | ||
+ | | X | neznámý, neurčený, neurčitelný slovní druh | @ | morfologickou analýzou nerozpoznaný tvar | | ||
+ | | ::: | ::: | ||
- | ^ Značka | ||
- | | ! | zkratka jako adverbium | R | předložka, | ||
- | | * | slovo " | ||
- | | , | spojka podřadicí (vč. " | ||
- | | . | zkratka jako adjektivum | U | adjektivum přivlastňovací (na " | ||
- | | : | interpunkce všeobecně | V | předložka vokalizovaná (" | ||
- | | ; | zkratka jako substantivum | W | zájmena záporná (" | ||
- | | = | číslo psané číslicemi (značkováno jako slovní druh: číslovka - ' | ||
- | | ? | číslovka " | ||
- | | < | ||
- | | } | číslovka psaná římskými číslicemi | a | číslovka neurčitá (" | ||
- | | ~ | zkratka jako sloveso | b | příslovce (bez určení stupně a negace; " | ||
- | | @ | morfologickou analýzou nerozpoznaný tvar (slovní druh: ' | ||
- | | 0 | předložka s připojeným " | ||
- | | 1 | vztažné přivlastňovací zájmeno " | ||
- | | 2 | slovo před pomlčkou | f | slovesný tvar: infinitiv | | ||
- | | 3 | zkratka jako číslovka | g | příslovce (s určením stupně a negace; " | ||
- | | 4 | vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: " | ||
- | | 5 | zájmeno " | ||
- | | 6 | reflexívní zájmeno " | ||
- | | 7 | reflexívní zájmeno " | ||
- | | 8 | přivlastňovací zájmeno " | ||
- | | 9 | vztažné zájmeno " | ||
- | | A | adjektivum obyčejné | n | číslovky základní >= 5 | | ||
- | | B | sloveso, tvar přítomného nebo budoucího času | o | číslovky násobné neurčité (" | ||
- | | C | adjektivum, jmenný tvar | p | slovesné tvary minulého aktivního příčestí (včetně přidaného " | ||
- | | D | zájmeno ukazovací (" | ||
- | | E | vztažné zájmeno " | ||
- | | F | součást předložky, | ||
- | | G | přídavné jméno odvozené od slovesného tvaru přítomného přechodníku | t | archaické slovesné tvary přítomného a budoucího času (zakončení " | ||
- | | H | krátké tvary osobních zájmen (" | ||
- | | I | citoslovce (značkováno jako slovní druh: citoslovce - ' | ||
- | | J | vztažné zájmeno " | ||
- | | K | zájmeno tázací nebo vztažné " | ||
- | | L | zájmeno neurčité " | ||
- | | M | přídavné jméno odvozené od slovesného tvaru minulého přechodníku | z | číslovka tázací řadová " | ||
- | | N | substantivum, | ||
- | | O | samostatně stojící zájmena " | ||
- | | P | osobní zájmena (vč. tvaru " | ||
- | | Q | zájmeno tázací/ | ||
==== Pozice 3 - Jmenný rod ==== | ==== Pozice 3 - Jmenný rod ==== | ||
^ Značka | ^ Značka | ||
- | | | + | | |
+ | | I | maskulinum inanimatum (rod mužský neživotný) | ||
| F | femininum (ženský rod) | | | F | femininum (ženský rod) | | ||
- | | H | femininum nebo neutrum (tedy nikoli maskulinum)* | | ||
- | | I | maskulinum inanimatum (rod mužský neživotný) | | ||
- | | M | maskulinum animatum (rod mužský životný) | | ||
| N | neutrum (střední rod) | | | N | neutrum (střední rod) | | ||
- | | | + | | |
- | | T | masculinum inanimatum nebo femininum (jen plurál u příčestí a jmenných adjektiv)* | | + | |
- | | X | libovolný rod (F/M/I/N) | | + | |
- | | Y | masculinum (animatum nebo inanimatum)* | | + | |
- | | Z | ' | + | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 4 - Číslo ==== | ==== Pozice 4 - Číslo ==== | ||
^ Značka | ^ Značka | ||
+ | | S | singulár (jednotné číslo) | | ||
+ | | P | plurál (množné číslo) | | ||
+ | | D | duál (pouze 7. pád feminin) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | D | duál (pouze 7. pád feminin) | | ||
- | | P | plurál (množné číslo) | | ||
- | | S | singulár (jednotné číslo) | | ||
- | | W | pouze v kombinaci s jmenným rodem ' | ||
- | | X | libovolné číslo (P/S/D) | | ||
- | |||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | ||
==== Pozice 5 - Pád ==== | ==== Pozice 5 - Pád ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| 1 | nominativ (1. pád) | | | 1 | nominativ (1. pád) | | ||
| 2 | genitiv (2. pád) | | | 2 | genitiv (2. pád) | | ||
Řádek 144: | Řádek 175: | ||
| 6 | lokál (6. pád) | | | 6 | lokál (6. pád) | | ||
| 7 | instrumentál (7. pád) | | | 7 | instrumentál (7. pád) | | ||
- | | | + | | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 6 - Přivlastňovací rod ==== | ==== Pozice 6 - Přivlastňovací rod ==== | ||
Řádek 155: | Řádek 184: | ||
^ Značka | ^ Značka | ||
+ | | M | maskulinum animatum (rod mužský životný) | | ||
+ | | F | femininum (ženský rod) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | F | femininum (ženský rod) | | ||
- | | M | maskulinum animatum (rod mužský životný) | | ||
- | | X | libovolný rod (F/M/I/N) | | ||
- | | Z | ' | ||
- | |||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | ||
==== Pozice 7 - Přivlastňovací číslo ==== | ==== Pozice 7 - Přivlastňovací číslo ==== | ||
Řádek 168: | Řádek 193: | ||
^ Značka | ^ Značka | ||
+ | | S | singulár (jednotné číslo) | | ||
+ | | P | plurál (množné číslo) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | P | plurál (množné číslo) | | ||
- | | S | singulár (jednotné číslo) | | ||
==== Pozice 8 - Osoba ==== | ==== Pozice 8 - Osoba ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| 1 | 1. osoba | | | 1 | 1. osoba | | ||
| 2 | 2. osoba | | | 2 | 2. osoba | | ||
| 3 | 3. osoba | | | 3 | 3. osoba | | ||
- | | | + | | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 9 - Čas ==== | ==== Pozice 9 - Čas ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
- | | F | futurum (budoucí čas) | | ||
- | | H | minulost nebo přítomnost (P/R)* | | ||
| P | prézens (přítomný čas) | | | P | prézens (přítomný čas) | | ||
| R | minulý čas | | | R | minulý čas | | ||
- | | | + | | |
- | + | | - | neurčuje se | | |
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 10 - Stupeň ==== | ==== Pozice 10 - Stupeň ==== | ||
^ Značka | ^ Značka | ||
+ | | 1 | 1. stupeň (pozitiv) | | ||
+ | | 2 | 2. stupeň (komparativ) | | ||
+ | | 3 | 3. stupeň (superlativ) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | 1 | 1. stupeň | | ||
- | | 2 | 2. stupeň | | ||
- | | 3 | 3. stupeň | | ||
==== Pozice 11 - Negace ==== | ==== Pozice 11 - Negace ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| A | afirmativ (bez negativní předpony " | | A | afirmativ (bez negativní předpony " | ||
| N | negace (tvar s negativní předponou " | | N | negace (tvar s negativní předponou " | ||
+ | | - | neurčuje se | | ||
==== Pozice 12 - Aktivum/ | ==== Pozice 12 - Aktivum/ | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| A | aktivum nebo ' | | A | aktivum nebo ' | ||
| P | pasívum | | | P | pasívum | | ||
+ | | - | neurčuje se | | ||
- | ==== Pozice 13 - Nepoužito | + | ==== Pozice 13 - Vid ==== |
^ Značka | ^ Značka | ||
- | | | + | | |
+ | | I | imperfektivum (nedokonavé sloveso) | | ||
+ | | B | obouvidé sloveso | | ||
+ | | - | ||
==== Pozice 14 - Nepoužito ==== | ==== Pozice 14 - Nepoužito ==== | ||
Řádek 232: | Řádek 253: | ||
^ Značka | ^ Značka | ||
- | | | + | | 1 | varianta víceméně rovnocenná | |
- | | 1 | varianta, víceméně rovnocenná | + | | 2 | varianta gramaticky nebo stylisticky příznaková, |
- | | 2 | řídká, | + | | 3 | další varianta gramaticky nebo stylisticky příznaková, nehovorová |
- | | 3 | velmi archaický tvar, též hovorový | + | | 4 | další varianta gramaticky |
- | | 4 | velmi archaický | + | | 5 | další varianta stylisticky příznaková, hovorová |
- | | 5 | hovorový tvar, ale v zásadě tolerovaný ve veřejných projevech | + | | 6 | varianta stylisticky příznaková, |
- | | 6 | hovorový tvar (koncovka standardní obecné češtiny) | | + | | 7 | další varianta stylisticky příznaková, hovorová |
- | | 7 | hovorový tvar (koncovka standardní obecné češtiny), varianta k ' | + | | 8 | další varianta stylisticky příznaková, |
- | | 8 | zkratky | + | | 9 | speciální použití | |
- | | 9 | speciální použití | + | | |
- | + | ||
- | ==== Pozice 16 - Vid ==== | + | |
- | + | ||
- | Tato pozice byla k původní sadě doplněna na základě slovníku morfologické analýzy. Tato pozice není k dispozici v korpusech [[cnk: | + | |
- | + | ||
- | ^ Značka | + | |
- | | - | + | |
- | | P | perfektivum | + | |
- | | I | imperfektivum (nedokonavé sloveso) | | + | |
- | | B | obouvidé sloveso | + | |
- | --- //Jan Hajič, Václav Cvrček// | ||