| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| pojmy:tag [2018/05/27 22:47] – michalskrabal | pojmy:tag [2022/01/03 18:00] (aktuální) – jankrivan |
|---|
| ====== Morfologická značka (tag) ====== | ====== Morfologická značka (tag) ====== |
| |
| Morfologická značka (běžně nazývaná **tag**) je sumarizací gramatické informace o hledaném slovu ([[pojmy:pozice|pozici]]) v konkrétním kontextu. Tag vzniká většinou automaticky na základě [[pojmy:morfologicka_analyza|morfologické analýzy]] a následné [[pojmy:desambiguace|desambiguace]]. | Morfologická značka (běžně nazývaná **tag**) je sumarizací gramatické informace o hledaném slovu ([[pojmy:pozice|pozici]]) v konkrétním kontextu. Možné tagy pro každý token se přiřazují na základě [[pojmy:morfologicka_analyza|morfologické analýzy]], výsledný tag je pak pro každý token vybrán během následné [[pojmy:desambiguace|desambiguace]]. |
| |
| Tagy jsou [[pojmy:atributy_pozicni|poziční atributy]]. Morfologická značka v českých korpusech ČNK je tvořena sekvencí značek (písmen a čísel), které mají specifický význam podle toho, na jaké pozici v kódu stojí. Ve větě //Po promoci na londýnské universitě odjel jsem roku 1878 do Netley na školení vojenských chirurgů.// má tvar //promoci// (přesto, že se potenciálně jedná o tvar morfologicky víceznačný) morfologickou značku ''NNFS6-----A-----'', která o něm říká, že se jedná o | Tagy jsou [[pojmy:atributy_pozicni|poziční atributy]]. Morfologická značka v českých korpusech ČNK je tvořena sekvencí značek (písmen a čísel), které mají specifický význam podle toho, na jaké pozici v kódu stojí. Ve větě //Po promoci na londýnské universitě odjel jsem roku 1878 do Netley na školení vojenských chirurgů.// má tvar //promoci// (přesto, že se potenciálně jedná o tvar morfologicky víceznačný) morfologickou značku ''%%NNFS6-----A----%%'', která o něm říká, že se jedná o |
| * substantivum (=N) | * substantivum (=N) |
| * běžné substantivum (=N) | * běžné substantivum (=N) |
| * v šestém pádě, tedy lokálu (=6) | * v šestém pádě, tedy lokálu (=6) |
| |
| | Počínaje korpusem [[cnk:syn2020|SYN2020]] se anotuje i zvláštní značka gramatických kategorií slovesa [[pojmy:verbtag|verbtag]]. |
| ===== Tagset ===== | ===== Tagset ===== |
| |
| Soubor pravidel a hodnot, které se můžou vyskytovat v tagu se nazývá tagset. Poziční [[seznamy:tagy#popis_jednotlivych_pozic_znacky|tagset užívaný v českých korpusech ČNK]] má 16 pozic, každá z nich nese informaci o jiné gramatické kategorii: | Soubor pravidel a hodnot, které se můžou vyskytovat v tagu, se nazývá tagset. Aktuální poziční [[seznamy:tagy#popis_jednotlivych_pozic_znacky|tagset užívaný v českých korpusech ČNK]] (dříve se používal tagset [[seznamy:tagy_archiv|jiný]]) má 15 pozic, každá z nich nese informaci o jiné gramatické kategorii: |
| |
| - Slovní druh | - Slovní druh |
| - Negace | - Negace |
| - Aktivum/pasívum | - Aktivum/pasívum |
| - //Nepoužito// | - Vid |
| - //Nepoužito// | - //Nepoužito// |
| - Varianta, stylový příznak apod. | - Varianta, stylový příznak apod. |
| - Vid | |
| |
| ===== Tagsety používané v paralelním korpusu InterCorp ===== | ===== Tagsety používané v paralelním korpusu InterCorp ===== |
| |
| <WRAP round box 49%> | <WRAP round box 49%> |
| [[seznamy:tagy|Přehled morfologických značek]] • [[pojmy:morfologicka_analyza|Morfologická analýza]] • [[pojmy:atributy_pozicni|Poziční atributy]] | [[seznamy:tagy|Přehled morfologických značek]] • [[pojmy:morfologicka_analyza|Morfologická analýza]] • [[pojmy:atributy_pozicni|Poziční atributy]] • [[pojmy:verbtag|Verbtag]] |
| </WRAP> | </WRAP> |