AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:registrova_klasifikace [2021/02/12 13:51] Václav Cvrčekcnk:registrova_klasifikace [2021/02/12 14:50] (aktuální) – [Spolehlivost registrové klasifikace] Michal Škrabal
Řádek 47: Řádek 47:
 ===== Spolehlivost registrové klasifikace ===== ===== Spolehlivost registrové klasifikace =====
  
-To, jestli je text nebo výsek textu příkladem určitého registru, je v zásadě určeno tím, jakou vzdálenost má v multidimenzionálním prostoru od pomysleného prototypického textu. Kromě případů, které jsou jednoznačné, můžou nastat ještě dvě specifické situace:+To, jestli je text nebo výsek textu příkladem určitého registru, je v zásadě určeno tím, jakou vzdálenost má v multidimenzionálním prostoru od pomyslného prototypického textu. Kromě případů, které jsou jednoznačné, můžou nastat ještě dvě specifické situace:
  
   * text je stejně podobný dvěma registrům (má stejně blízko k prototypickým zástupcům dvou registrů), v takovém případě jde o text či úsek textu registrově **smíšený**   * text je stejně podobný dvěma registrům (má stejně blízko k prototypickým zástupcům dvou registrů), v takovém případě jde o text či úsek textu registrově **smíšený**
-  * text není podobný žádnému z registrů (je vzdálen od všech registrů více než je obvyklé), v takovém případě mluvíme o textech nebo úsecích registrově **nevyhraněných**+  * text není podobný žádnému z registrů (je vzdálen od všech registrů vícenež je obvyklé), v takovém případě mluvíme o textech nebo úsecích registrově **nevyhraněných** či **okrajových** 
 + 
 +Do registrové anotace se tato informace propíše prostřednictvím atributu ''register_reliability'', který nabývá hodnot //okrajový//, //smíšený//, //spolehlivý//. Tento atribut se přitom neobjevuje pouze u struktury ''<chunk>'', ale i u struktury ''<doc>'', kde vyjadřuje jednak míru spolehlivosti určení převažujícího registru (''prevailing_register''), ale také zároveň spolehlivost určení registrů u dílčích chunků daného dokumentu. Jeho hodnoty je třeba interpretovat takto: 
 + 
 +  * spolehlivý -- nadpoloviční většina textu má jednoznačné a jednotné registrové určení 
 +  * smíšený -- text se skládá z částí, které mají různou registrovou platnost, a/nebo části textu jsou ve většině registrově smíšené 
 +  * okrajový -- text je z větší části složen z úseků registrově nevyhraněných 
 +  * NA (prázdná hodnota) -- žádný registr v textu nepřevažuje
  
 ===== Statické registry ===== ===== Statické registry =====