Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
seznamy:tagy [2017/06/15 17:33] – [Pozice 1 - Slovní druh] luciechlumska | seznamy:tagy [2022/04/18 18:32] (aktuální) – jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== Morfologické značky (tagy) ====== | + | ====== Morfologické značky (tagy) |
- | Morfologické [[pojmy: | + | Morfologické [[pojmy: |
+ | |||
+ | Morfologická analýza je obecně nejednoznačná; | ||
Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk: | Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk: | ||
+ | Morfologická analýza je předmětem neustálého vyvoje a zlepšování. V různých korpusech proto můžete narazit na různé verze analýzy, což se může projevit v odlišnostech jak u anotačního schématu, tak u samotných výsledků a jejich chybovosti. | ||
===== Struktura značky ===== | ===== Struktura značky ===== | ||
- | [{{: | + | [{{: |
+ | Každá značka je počínaje korpusem SYN2020 řetězcem 15 znaků (ke změnám ve značkování viz následující oddíl). | ||
- | Každá značka je řetězcem 16 znaků (16. pozice chybí pouze v korpusech [[cnk: | + | Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. ' |
- | V případě, že značka je tvořena symbolem, který v rámci regulárních výrazů | + | V případě, že značka je tvořena symbolem, který |
===== Změny v morfologickém značkování psaných korpusů ===== | ===== Změny v morfologickém značkování psaných korpusů ===== | ||
- | S uveřejněním korpusu [[cnk: | + | Se zveřejněním korpusu [[cnk: |
+ | |||
+ | === Původní morfologická značka (vývoj značení) === | ||
+ | |||
+ | 1. V prvních zveřejněných korpusech [[cnk: | ||
+ | |||
+ | 2. S uveřejněním korpusu [[cnk: | ||
- | S uveřejněním | + | 3. S publikací |
- | Pro sestavení | + | Na [[seznamy: |
- | ===== Změny v morfologickém | + | === Aktuální morfologická |
- | ===== Popis jednotlivých | + | Počínaje korpusem [[cnk: |
- | Pozice jsou číslovány od 1 do 16 (16. pozice chybí pouze v korpusech | + | Zároveň však došlo ke změnám ve značení na jednotlivých pozicích: Na 1. pozici |
+ | |||
+ | Níže uvádíme kompletní přehled pozic aktuální morfologické značky. | ||
+ | |||
+ | ===== Nástroj pro sestavení morfologické značky ===== | ||
+ | |||
+ | Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní | ||
+ | |||
+ | ===== Popis jednotlivých pozic aktuální morfologické značky ===== | ||
+ | |||
+ | Pozice jsou číslovány od 1 do 15. Každé pozici odpovídá jiná gramatická kategorie: | ||
- [[seznamy: | - [[seznamy: | ||
Řádek 39: | Řádek 59: | ||
- [[seznamy: | - [[seznamy: | ||
- [[seznamy: | - [[seznamy: | ||
- | - pozice nepoužita | + | - [[seznamy: |
- pozice nepoužita | - pozice nepoužita | ||
- [[seznamy: | - [[seznamy: | ||
- | - [[seznamy: | + | |
==== Pozice 1 - Slovní druh ==== | ==== Pozice 1 - Slovní druh ==== | ||
- | Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních. Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního druhu neshodují nebo uvádějí jiné rozdělení na významy slova) nemusí být zařazení zcela "tradiční". | + | Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních |
- | ^ Značka | + | Nové slovní druhy S, B a F jsou představeny na stránce [[cnk: |
- | | N | substantivum (podstatné jméno) | | + | |
- | | A | adjektivum (přídavné jméno) | | + | |
- | | P | pronomen (zájmeno) | | + | |
- | | C | numerál (číslovka, nebo číselný výraz s číslicemi) | | + | |
- | | V | verbum (sloveso) | | + | |
- | | D | adverbium (příslovce) | + | |
- | | R | prepozice (předložka) | | + | |
- | | J | konjunkce (spojka) | | + | |
- | | T | partikule (částice) | | + | |
- | | I | interjekce (citoslovce) | | + | |
- | | X | neznámý, neurčený, neurčitelný slovní druh | | + | |
- | | Z | interpunkce, | + | |
- | V korpusech ORALv1 a ORTOFON z června 2017 přibyly na první pozici tagu tři značky, specifické pro spontánní mluvenou řeč. | + | ==== Pozice 2 - Detailní určení slovního druhu ==== |
- | ^ Značka ^ Význam | + | Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné vyvodit hlavní slovní druh (s tou výjimkou, že teoreticky každý znak může vedle svého hlavního slovního druhu značit i proměnné slovní druhy B (zkratka) a S (segment, |
- | | F | fragmenty (nedořečená slova) | | + | |
- | | H | neverbální zvuky (např. hezitační) | | + | |
- | | M | komentáře přepisujících (v kulatých závorkách) | | + | |
+ | ==== Souhrnný přehled pozic 1 a 2 ==== | ||
- | ==== Pozice | + | ^ Poz. 1 ^ Slovní druh ^ Poz. 2 ^ Detailní určení slovního druhu ^ |
+ | | N | substantivum (podstatné jméno) | N | substantivum obyčejné | | ||
+ | | A | adjektivum (přídavné jméno) | | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | P | pronomen (zájmeno) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | C | numerál (číslovka, | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | V | verbum (sloveso) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | D | adverbium (příslovce) | ||
+ | | ::: | ::: | ||
+ | | R | prepozice (předložka) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | J | konjunkce (spojka) | ||
+ | | ::: | ::: | ||
+ | | ::: | ::: | ||
+ | | T | partikule (částice) | ||
+ | | I | interjekce (citoslovce) | ||
+ | | S | segment | ||
+ | | ::: | ::: | ||
+ | | B | zkratka | [ ] | u zkratek se na druhé pozici vyskytují detailní určení jiných slovních druhů v závislosti na tom, jaké slovo zkratka zkracuje | ||
+ | | Z | interpunkce, | ||
+ | | ::: | ::: | ||
+ | | F | cizí slovo | % | cizí slovo | | ||
+ | | X | neznámý, neurčený, neurčitelný slovní druh | @ | morfologickou analýzou nerozpoznaný tvar | | ||
+ | | ::: | ::: | ||
- | Detailní určení slovního druhu slouží především k zachycení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné jednoznačně vyvodit hlavní [[seznamy: | ||
- | |||
- | ^ Značka | ||
- | | ! | zkratka jako adverbium | R | předložka, | ||
- | | * | slovo " | ||
- | | , | spojka podřadicí (vč. " | ||
- | | . | zkratka jako adjektivum | U | adjektivum přivlastňovací (na " | ||
- | | : | interpunkce všeobecně | V | předložka vokalizovaná (" | ||
- | | ; | zkratka jako substantivum | W | zájmena záporná (" | ||
- | | = | číslo psané číslicemi (značkováno jako slovní druh: číslovka - ' | ||
- | | ? | číslovka " | ||
- | | < | ||
- | | } | číslovka psaná římskými číslicemi | a | číslovka neurčitá (" | ||
- | | ~ | zkratka jako sloveso | b | příslovce (bez určení stupně a negace; " | ||
- | | @ | morfologickou analýzou nerozpoznaný tvar (slovní druh: ' | ||
- | | 0 | předložka s připojeným " | ||
- | | 1 | vztažné přivlastňovací zájmeno " | ||
- | | 2 | slovo před pomlčkou | f | slovesný tvar: infinitiv | | ||
- | | 3 | zkratka jako číslovka | g | příslovce (s určením stupně a negace; " | ||
- | | 4 | vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: " | ||
- | | 5 | zájmeno " | ||
- | | 6 | reflexívní zájmeno " | ||
- | | 7 | reflexívní zájmeno " | ||
- | | 8 | přivlastňovací zájmeno " | ||
- | | 9 | vztažné zájmeno " | ||
- | | A | adjektivum obyčejné | n | číslovky základní >= 5 | | ||
- | | B | sloveso, tvar přítomného nebo budoucího času | o | číslovky násobné neurčité (" | ||
- | | C | adjektivum, jmenný tvar | p | slovesné tvary minulého aktivního příčestí (včetně přidaného " | ||
- | | D | zájmeno ukazovací (" | ||
- | | E | vztažné zájmeno " | ||
- | | F | součást předložky, | ||
- | | G | přídavné jméno odvozené od slovesného tvaru přítomného přechodníku | t | archaické slovesné tvary přítomného a budoucího času (zakončení " | ||
- | | H | krátké tvary osobních zájmen (" | ||
- | | I | citoslovce (značkováno jako slovní druh: citoslovce - ' | ||
- | | J | vztažné zájmeno " | ||
- | | K | zájmeno tázací nebo vztažné " | ||
- | | L | zájmeno neurčité " | ||
- | | M | přídavné jméno odvozené od slovesného tvaru minulého přechodníku | z | číslovka tázací řadová " | ||
- | | N | substantivum, | ||
- | | O | samostatně stojící zájmena " | ||
- | | P | osobní zájmena (vč. tvaru " | ||
- | | Q | zájmeno tázací/ | ||
==== Pozice 3 - Jmenný rod ==== | ==== Pozice 3 - Jmenný rod ==== | ||
^ Značka | ^ Značka | ||
- | | | + | | |
+ | | I | maskulinum inanimatum (rod mužský neživotný) | ||
| F | femininum (ženský rod) | | | F | femininum (ženský rod) | | ||
- | | H | femininum nebo neutrum (tedy nikoli maskulinum)* | | ||
- | | I | maskulinum inanimatum (rod mužský neživotný) | | ||
- | | M | maskulinum animatum (rod mužský životný) | | ||
| N | neutrum (střední rod) | | | N | neutrum (střední rod) | | ||
- | | | + | | |
- | | T | masculinum inanimatum nebo femininum (jen plurál u příčestí a jmenných adjektiv)* | | + | |
- | | X | libovolný rod (F/M/I/N) | | + | |
- | | Y | masculinum (animatum nebo inanimatum)* | | + | |
- | | Z | ' | + | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 4 - Číslo ==== | ==== Pozice 4 - Číslo ==== | ||
^ Značka | ^ Značka | ||
+ | | S | singulár (jednotné číslo) | | ||
+ | | P | plurál (množné číslo) | | ||
+ | | D | duál (pouze 7. pád feminin) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | D | duál (pouze 7. pád feminin) | | ||
- | | P | plurál (množné číslo) | | ||
- | | S | singulár (jednotné číslo) | | ||
- | | W | pouze v kombinaci s jmenným rodem ' | ||
- | | X | libovolné číslo (P/S/D) | | ||
- | |||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | ||
==== Pozice 5 - Pád ==== | ==== Pozice 5 - Pád ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| 1 | nominativ (1. pád) | | | 1 | nominativ (1. pád) | | ||
| 2 | genitiv (2. pád) | | | 2 | genitiv (2. pád) | | ||
Řádek 154: | Řádek 175: | ||
| 6 | lokál (6. pád) | | | 6 | lokál (6. pád) | | ||
| 7 | instrumentál (7. pád) | | | 7 | instrumentál (7. pád) | | ||
- | | | + | | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 6 - Přivlastňovací rod ==== | ==== Pozice 6 - Přivlastňovací rod ==== | ||
Řádek 165: | Řádek 184: | ||
^ Značka | ^ Značka | ||
+ | | M | maskulinum animatum (rod mužský životný) | | ||
+ | | F | femininum (ženský rod) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | F | femininum (ženský rod) | | ||
- | | M | maskulinum animatum (rod mužský životný) | | ||
- | | X | libovolný rod (F/M/I/N) | | ||
- | | Z | ' | ||
- | |||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | ||
==== Pozice 7 - Přivlastňovací číslo ==== | ==== Pozice 7 - Přivlastňovací číslo ==== | ||
Řádek 178: | Řádek 193: | ||
^ Značka | ^ Značka | ||
+ | | S | singulár (jednotné číslo) | | ||
+ | | P | plurál (množné číslo) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | P | plurál (množné číslo) | | ||
- | | S | singulár (jednotné číslo) | | ||
==== Pozice 8 - Osoba ==== | ==== Pozice 8 - Osoba ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| 1 | 1. osoba | | | 1 | 1. osoba | | ||
| 2 | 2. osoba | | | 2 | 2. osoba | | ||
| 3 | 3. osoba | | | 3 | 3. osoba | | ||
- | | | + | | |
- | + | ||
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 9 - Čas ==== | ==== Pozice 9 - Čas ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
- | | F | futurum (budoucí čas) | | ||
- | | H | minulost nebo přítomnost (P/R)* | | ||
| P | prézens (přítomný čas) | | | P | prézens (přítomný čas) | | ||
| R | minulý čas | | | R | minulý čas | | ||
- | | | + | | |
- | + | | - | neurčuje se | | |
- | * Tato značka je k dispozici pouze v korpusech: [[cnk: | + | |
==== Pozice 10 - Stupeň ==== | ==== Pozice 10 - Stupeň ==== | ||
^ Značka | ^ Značka | ||
+ | | 1 | 1. stupeň (pozitiv) | | ||
+ | | 2 | 2. stupeň (komparativ) | | ||
+ | | 3 | 3. stupeň (superlativ) | | ||
| - | neurčuje se | | | - | neurčuje se | | ||
- | | 1 | 1. stupeň | | ||
- | | 2 | 2. stupeň | | ||
- | | 3 | 3. stupeň | | ||
==== Pozice 11 - Negace ==== | ==== Pozice 11 - Negace ==== | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| A | afirmativ (bez negativní předpony " | | A | afirmativ (bez negativní předpony " | ||
| N | negace (tvar s negativní předponou " | | N | negace (tvar s negativní předponou " | ||
+ | | - | neurčuje se | | ||
==== Pozice 12 - Aktivum/ | ==== Pozice 12 - Aktivum/ | ||
^ Značka | ^ Značka | ||
- | | - | neurčuje se | | ||
| A | aktivum nebo ' | | A | aktivum nebo ' | ||
| P | pasívum | | | P | pasívum | | ||
+ | | - | neurčuje se | | ||
- | ==== Pozice 13 - Nepoužito | + | ==== Pozice 13 - Vid ==== |
^ Značka | ^ Značka | ||
- | | | + | | |
+ | | I | imperfektivum (nedokonavé sloveso) | | ||
+ | | B | obouvidé sloveso | | ||
+ | | - | ||
==== Pozice 14 - Nepoužito ==== | ==== Pozice 14 - Nepoužito ==== | ||
Řádek 242: | Řádek 253: | ||
^ Značka | ^ Značka | ||
- | | | + | | 1 | varianta víceméně rovnocenná | |
- | | 1 | varianta, víceméně rovnocenná | + | | 2 | varianta gramaticky nebo stylisticky příznaková, |
- | | 2 | řídká, | + | | 3 | další varianta gramaticky nebo stylisticky příznaková, nehovorová |
- | | 3 | velmi archaický tvar, též hovorový* | + | | 4 | další varianta gramaticky |
- | | 4 | velmi archaický | + | | 5 | další varianta stylisticky příznaková, hovorová |
- | | 5 | hovorový tvar, ale v zásadě tolerovaný ve veřejných projevech* | + | | 6 | varianta stylisticky příznaková, |
- | | 6 | hovorový tvar (koncovka standardní obecné češtiny) | | + | | 7 | další varianta stylisticky příznaková, hovorová |
- | | 7 | hovorový tvar (koncovka standardní obecné češtiny), varianta k ' | + | | 8 | další varianta stylisticky příznaková, |
- | | 8 | zkratky | + | | 9 | speciální použití | |
- | | 9 | speciální použití | + | | - | neurčuje se (" |
- | + | ||
- | * Některé značky jsou si velice blízké a je obtížné mezi nimi rozlišovat. V korpusech [[cnk: | + | |
- | + | ||
- | ==== Pozice 16 - Vid ==== | + | |
- | + | ||
- | Tato pozice byla k původní sadě doplněna na základě slovníku morfologické analýzy. Tato pozice není k dispozici v korpusech [[cnk: | + | |
- | + | ||
- | ^ Značka | + | |
- | | - | + | |
- | | P | perfektivum | + | |
- | | I | imperfektivum (nedokonavé sloveso) | | + | |
- | | B | obouvidé sloveso | + | |
- | --- //Jan Hajič, Václav Cvrček// | ||