Atribut proc
Poziční atribut proc
informuje o tom, jaký nástroj byl použit v konečné fázi morfologické disambiguace. Podle spolehlivosti nástroje je pak možné odhadovat, jak důvěryhodná je daná značka. Atribut se používá v korpusech řady SYN (poprvé v SYN2015).
Atribut proc
nabývá těchto hodnot:
- M: tvar je jednoznačný už v morfologickém slovníku (např. neodolatelně, protože, hlavou apod.)
- D: delimitační značka (interpunkce, symboly a značky apod.)
- R: disambiguaci provedl pravidlový komponent, jehož chybovost je obecně velmi nízká (např. některé výskyty víceznačných tvarů černá, kašlem, podle apod.)
- T: disambiguaci provedl stochastický tagger (ostatní případy)
Uplatnění jednotlivých značek na všech pozicích korpusu SYN2015 (vč. interpunkce) shrnuje následující tabulka:
proc | Abs. četnost | Podíl |
---|---|---|
M | 25 684 993 | 21,3 % |
D | 19 909 922 | 16,5 % |
R | 48 460 663 | 40,1 % |
T | 26 693 137 | 22,1 % |