Nastavení

Atribut proc

Poziční atribut proc informuje o tom, jaký nástroj byl použit v konečné fázi morfologické disambiguace. Podle spolehlivosti nástroje je pak možné odhadovat, jak důvěryhodná je daná značka. Atribut se používá v korpusech řady SYN (poprvé v SYN2015).

Atribut proc nabývá těchto hodnot:

  • M: tvar je jednoznačný už v morfologickém slovníku (např. neodolatelně, protože, hlavou apod.)
  • D: delimitační značka (interpunkce, symboly a značky apod.)
  • R: disambiguaci provedl pravidlový komponent, jehož chybovost je obecně velmi nízká (např. některé výskyty víceznačných tvarů černá, kašlem, podle apod.)
  • T: disambiguaci provedl stochastický tagger (ostatní případy)

Uplatnění jednotlivých značek na všech pozicích korpusu SYN2015 (vč. interpunkce) shrnuje následující tabulka:

proc Abs. četnost Podíl
M 25 684 993 21,3 %
D 19 909 922 16,5 %
R 48 460 663 40,1 %
T 26 693 137 22,1 %