Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
seznamy:tagy [2015/12/17 12:57] – [Změny v morfologickém značkování] michalskrabal | seznamy:tagy [2022/04/18 18:32] (aktuální) – jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== Morfologické značky (tagy) ====== | + | ====== Morfologické značky (tagy) |
- | Morfologické [[pojmy: | + | Morfologické [[pojmy: |
+ | |||
+ | Morfologická analýza je obecně nejednoznačná; | ||
Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk: | Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk: | ||
+ | Morfologická analýza je předmětem neustálého vyvoje a zlepšování. V různých korpusech proto můžete narazit na různé verze analýzy, což se může projevit v odlišnostech jak u anotačního schématu, tak u samotných výsledků a jejich chybovosti. | ||
===== Struktura značky ===== | ===== Struktura značky ===== | ||
- | [{{: | + | [{{: |
+ | Každá značka je počínaje korpusem SYN2020 řetězcem 15 znaků (ke změnám ve značkování viz následující oddíl). | ||
+ | |||
+ | Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. ' | ||
+ | |||
+ | V případě, že značka je tvořena symbolem, který má v rámci [[pojmy: | ||
+ | |||
+ | ===== Změny v morfologickém značkování psaných korpusů ===== | ||
+ | |||
+ | Se zveřejněním korpusu [[cnk: | ||
+ | |||
+ | === Původní morfologická značka (vývoj značení) === | ||
+ | |||
+ | 1. V prvních zveřejněných korpusech [[cnk: | ||
+ | |||
+ | 2. S uveřejněním korpusu [[cnk: | ||
+ | |||
+ | 3. S publikací korpusu [[cnk: | ||
+ | |||
+ | Na [[seznamy: | ||
- | Každá | + | === Aktuální morfologická |
- | V případě, že značka | + | Počínaje korpusem [[cnk: |
- | ===== Změny v morfologickém | + | Zároveň však došlo ke změnám ve značení na jednotlivých pozicích: Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment). Na 2. pozici (detailní určení slovního druhu) jsou v souvislosti s novými slovními druhy zavedeny nové značky a jiné jsou naopak zrušeny, komplexně bylo upraveno členění číslovek a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dále dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu. Podrobný popis změn ve vztahu k původní značce je uveden na stránce [[cnk: |
- | S uveřejněním korpusu [[cnk: | + | Níže uvádíme kompletní |
- | S uveřejněním korpusu [[cnk: | + | ===== Nástroj pro sestavení morfologické |
- | Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy: | + | Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy: |
- | ===== Popis jednotlivých pozic značky ===== | + | ===== Popis jednotlivých pozic aktuální morfologické |
- | Pozice jsou číslovány od 1 do 16 (16. pozice chybí pouze v korpusech [[cnk: | + | Pozice jsou číslovány od 1 do 15. Každé pozici odpovídá jiná gramatická kategorie: |
- [[seznamy: | - [[seznamy: | ||
Řádek 37: | Řádek 59: | ||
- [[seznamy: | - [[seznamy: | ||
- [[seznamy: | - [[seznamy: | ||
- | - pozice nepoužita | + | - [[seznamy: |
- pozice nepoužita | - pozice nepoužita | ||
- [[seznamy: | - [[seznamy: | ||
- | - [[seznamy: | + | |
==== Pozice 1 - Slovní druh ==== | ==== Pozice 1 - Slovní druh ==== | ||
- | Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních. Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela "tradiční". | + | Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních |
- | ^ Značka | + | Nové slovní druhy S, B a F jsou představeny na stránce [[cnk: |
- | | N | substantivum (podstatné jméno) | | + | |
- | | A | adjektivum (přídavné jméno) | | + | |
- | | P | pronomen (zájmeno) | | + | |
- | | C | numerál (číslovka, nebo číselný výraz s číslicemi) | | + | |
- | | V | verbum (sloveso) | | + | |
- | | D | adverbium (příslovce) | + | |
- | | R | prepozice (předložka) | | + | |
- | | J | konjunkce (spojka) | | + | |
- | | T | partikule (částice) | | + | |
- | | I | interjekce (citoslovce) | | + | |
- | | X | neznámý, neurčený, neurčitelný slovní druh | | + | |
- | | Z | interpunkce, | + | |
==== Pozice 2 - Detailní určení slovního druhu ==== | ==== Pozice 2 - Detailní určení slovního druhu ==== | ||
- | Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné | + | Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné |
+ | |||
+ | ==== Souhrnný přehled pozic 1 a 2 ==== | ||
+ | |||
+ | ^ Poz. 1 ^ Slovní druh ^ Poz. 2 ^ Detailní určení slovního druhu ^ | ||
+ | | N | substantivum (podstatné jméno) | N | substantivum obyčejné | | ||
+ | | A | adjektivum (přídavné jméno) | | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | P | pronomen (zájmeno) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | C | numerál (číslovka, | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | V | verbum (sloveso) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | D | adverbium (příslovce) | ||
+ | | ::: | ::: | ||
+ | | R | prepozice (předložka) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | J | konjunkce (spojka) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | T | partikule (částice) | ||
+ | | I | interjekce (citoslovce) | ||
+ | | S | segment | ||
+ | | ::: | ::: | ||
+ | | B | zkratka | [ ] | u zkratek se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, jaké slovo zkratka zkracuje | ||
+ | | Z | interpunkce, | ||
+ | | ::: | ::: | ||
+ | | F | cizí slovo | % | cizí slovo | | ||
+ | | X | neznámý, neurčený, neurčitelný slovní druh | @ | morfologickou analýzou nerozpoznaný tvar | | ||
+ | | ::: | ::: | ||
- | ^ Značka | ||
- | | ! | zkratka jako adverbium | R | předložka, | ||
- | | * | slovo " | ||
- | | , | spojka podřadicí (vč. " | ||
- | | . | zkratka jako adjektivum | U | adjektivum přivlastňovací (na " | ||
- | | : | interpunkce všeobecně | V | předložka vokalizovaná (" | ||
- | | ; | zkratka jako substantivum | W | zájmena záporná (" | ||
- | | = | číslo psané číslicemi (značkováno jako slovní druh: číslovka - ' | ||
- | | ? | číslovka " | ||
- | | < | ||
- | | } | číslovka psaná římskými číslicemi | a | číslovka neurčitá (" | ||
- | | ~ | zkratka jako sloveso | b | příslovce (bez určení stupně a negace; " | ||
- | | @ | morfologickou analýzou nerozpoznaný tvar (slovní druh: ' | ||
- | | 0 | předložka s připojeným " | ||
- | | 1 | vztažné přivlastňovací zájmeno " | ||
- | | 2 | slovo před pomlčkou | f | slovesný tvar: infinitiv | | ||
- | | 3 | zkratka jako číslovka | g | příslovce (s určením stupně a negace; " | ||
- | | 4 | vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: " | ||
- | | 5 | zájmeno " | ||
- | | 6 | reflexívní zájmeno " | ||
- | | 7 | reflexívní zájmeno " | ||
- | | 8 | přivlastňovací zájmeno " | ||
- | | 9 | vztažné zájmeno " | ||
- | | A | adjektivum obyčejné | n | číslovky základní >= 5 | | ||
- | | B | sloveso, tvar přítomného nebo budoucího času | o | číslovky násobné neurčité (" | ||
- | | C | adjektivum, jmenný tvar | p | slovesné tvary minulého aktivního příčestí (včetně přidaného " | ||
- | | D | zájmeno ukazovací (" | ||
- | | E | vztažné zájmeno " | ||
- | | F | součást předložky, | ||
- | | G | přídavné jméno odvozené od slovesného tvaru přítomného přechodníku | t | archaické slovesné tvary přítomného a budoucího času (zakončení " | ||
- | | H | krátké tvary osobních zájmen (" | ||
- | | I | citoslovce (značkováno jako slovní druh: citoslovce - ' | ||
- | | J | vztažné zájmeno " | ||
- | | K | zájmeno tázací nebo vztažné " | ||
- | | L | zájmeno neurčité " | ||
- | | M | přídavné jméno odvozené od slovesného tvaru minulého přechodníku | z | číslovka tázací řadová " | ||
- | | N | substantivum, | ||
- | | O | samostatně stojící zájmena " | ||
- | | P | osobní zájmena (vč. tvaru " | ||
- | | Q | zájmeno tázací/ | ||
==== Pozice 3 - Jmenný rod ==== | ==== Pozice 3 - Jmenný rod ==== | ||
^ Značka | ^ Značka | ||
- | | | + | | |
+ | | I | maskulinum inanimatum (rod mužský neživotný) | ||
| F | femininum (ženský rod) | | | F | femininum (ženský rod) | | ||
- | | H | femininum nebo neutrum (tedy nikoli maskulinum)* | | ||
- | | I | maskulinum inanimatum (rod mužský neživotný) | | ||
- | | M | maskulinum animatum (rod mužský životný) | | ||
| N | neutrum (střední rod) | | | N | neutrum (střední rod) | | ||
- | | | + | | |
- | | T | masculinum inanimatum nebo femininum (jen plurál u příčestí a jmenných adjektiv)* | | + | |
- | | X | libovolný rod (F/M/I/N) | | + | |
- | | Y | masculinum (animatum nebo inanimatum)* | | + | |
- | | Z | ' | + | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 4 - Číslo ==== | ==== Pozice 4 - Číslo ==== | ||
^ Značka | ^ Značka | ||
+ | | S | singulár (jednotné číslo) | | ||
+ | | P | plurál (množné číslo) | | ||
+ | | D | duál (pouze 7. pád feminin) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | D | duál (pouze 7. pád feminin) | | ||
- | | P | plurál (množné číslo) | | ||
- | | S | singulár (jednotné číslo) | | ||
- | | W | pouze v kombinaci s jmenným rodem ' | ||
- | | X | libovolné číslo (P/S/D) | | ||
- | |||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | ||
==== Pozice 5 - Pád ==== | ==== Pozice 5 - Pád ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| 1 | nominativ (1. pád) | | | 1 | nominativ (1. pád) | | ||
| 2 | genitiv (2. pád) | | | 2 | genitiv (2. pád) | | ||
Řádek 144: | Řádek 175: | ||
| 6 | lokál (6. pád) | | | 6 | lokál (6. pád) | | ||
| 7 | instrumentál (7. pád) | | | 7 | instrumentál (7. pád) | | ||
- | | | + | | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 6 - Přivlastňovací rod ==== | ==== Pozice 6 - Přivlastňovací rod ==== | ||
Řádek 155: | Řádek 184: | ||
^ Značka | ^ Značka | ||
+ | | M | maskulinum animatum (rod mužský životný) | | ||
+ | | F | femininum (ženský rod) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | F | femininum (ženský rod) | | ||
- | | M | maskulinum animatum (rod mužský životný) | | ||
- | | X | libovolný rod (F/M/I/N) | | ||
- | | Z | ' | ||
- | |||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | ||
==== Pozice 7 - Přivlastňovací číslo ==== | ==== Pozice 7 - Přivlastňovací číslo ==== | ||
Řádek 168: | Řádek 193: | ||
^ Značka | ^ Značka | ||
+ | | S | singulár (jednotné číslo) | | ||
+ | | P | plurál (množné číslo) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | P | plurál (množné číslo) | | ||
- | | S | singulár (jednotné číslo) | | ||
==== Pozice 8 - Osoba ==== | ==== Pozice 8 - Osoba ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| 1 | 1. osoba | | | 1 | 1. osoba | | ||
| 2 | 2. osoba | | | 2 | 2. osoba | | ||
| 3 | 3. osoba | | | 3 | 3. osoba | | ||
- | | | + | | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 9 - Čas ==== | ==== Pozice 9 - Čas ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
- | | F | futurum (budoucí čas) | | ||
- | | H | minulost nebo přítomnost (P/R)* | | ||
| P | prézens (přítomný čas) | | | P | prézens (přítomný čas) | | ||
| R | minulý čas | | | R | minulý čas | | ||
- | | | + | | |
- | + | | - | neurčuje se | | |
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 10 - Stupeň ==== | ==== Pozice 10 - Stupeň ==== | ||
^ Značka | ^ Značka | ||
+ | | 1 | 1. stupeň (pozitiv) | | ||
+ | | 2 | 2. stupeň (komparativ) | | ||
+ | | 3 | 3. stupeň (superlativ) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | 1 | 1. stupeň | | ||
- | | 2 | 2. stupeň | | ||
- | | 3 | 3. stupeň | | ||
==== Pozice 11 - Negace ==== | ==== Pozice 11 - Negace ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| A | afirmativ (bez negativní předpony " | | A | afirmativ (bez negativní předpony " | ||
| N | negace (tvar s negativní předponou " | | N | negace (tvar s negativní předponou " | ||
+ | | - | neurčuje se | | ||
==== Pozice 12 - Aktivum/ | ==== Pozice 12 - Aktivum/ | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| A | aktivum nebo ' | | A | aktivum nebo ' | ||
| P | pasívum | | | P | pasívum | | ||
+ | | - | neurčuje se | | ||
- | ==== Pozice 13 - Nepoužito | + | ==== Pozice 13 - Vid ==== |
^ Značka | ^ Značka | ||
- | | | + | | |
+ | | I | imperfektivum (nedokonavé sloveso) | | ||
+ | | B | obouvidé sloveso | | ||
+ | | - | ||
==== Pozice 14 - Nepoužito ==== | ==== Pozice 14 - Nepoužito ==== | ||
Řádek 232: | Řádek 253: | ||
^ Značka | ^ Značka | ||
- | | | + | | 1 | varianta víceméně rovnocenná | |
- | | 1 | varianta, víceméně rovnocenná | + | | 2 | varianta gramaticky nebo stylisticky příznaková, |
- | | 2 | řídká, | + | | 3 | další varianta gramaticky nebo stylisticky příznaková, nehovorová |
- | | 3 | velmi archaický tvar, též hovorový | + | | 4 | další varianta gramaticky |
- | | 4 | velmi archaický | + | | 5 | další varianta stylisticky příznaková, hovorová |
- | | 5 | hovorový tvar, ale v zásadě tolerovaný ve veřejných projevech | + | | 6 | varianta stylisticky příznaková, |
- | | 6 | hovorový tvar (koncovka standardní obecné češtiny) | | + | | 7 | další varianta stylisticky příznaková, hovorová |
- | | 7 | hovorový tvar (koncovka standardní obecné češtiny), varianta k ' | + | | 8 | další varianta stylisticky příznaková, |
- | | 8 | zkratky | + | | 9 | speciální použití | |
- | | 9 | speciální použití | + | | |
- | + | ||
- | ==== Pozice 16 - Vid ==== | + | |
- | + | ||
- | Tato pozice byla k původní sadě doplněna na základě slovníku morfologické analýzy. Tato pozice není k dispozici v korpusech [[cnk: | + | |
- | + | ||
- | ^ Značka | + | |
- | | - | + | |
- | | P | perfektivum | + | |
- | | I | imperfektivum (nedokonavé sloveso) | | + | |
- | | B | obouvidé sloveso | + | |
- | --- //Jan Hajič, Václav Cvrček// | ||