AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:registrova_klasifikace [2019/06/20 10:32] – [Vlastnosti registrů] Petra Poukarovácnk:registrova_klasifikace [2021/02/12 14:50] (aktuální) – [Spolehlivost registrové klasifikace] Michal Škrabal
Řádek 8: Řádek 8:
 bylo vymezeno 10 registrů, které pokrývají celé spektrum textů od mluvených přes webové až po psané. Přiřazení textu k registru je automatické na základě lingvistických rysů, které se v textu využívají. bylo vymezeno 10 registrů, které pokrývají celé spektrum textů od mluvených přes webové až po psané. Přiřazení textu k registru je automatické na základě lingvistických rysů, které se v textu využívají.
  
-Název registru se skládá ze dvou částí. První označuje prototypickou vlastnost dané skupiny textů jako vodítko pro představu: může jí být slohový postup (//narace//, //argumentace//, //analýza//)komunikační oblast (//žurnalistika//), popřípadě formát (//komentář//, //scénář//, //anketa//) nebo cíl sdělení (//popularizace//, //fakta//). Druhou část názvu tvoří zpřesňující adjektiva charakterizující registr na základě výrazných dimenzí: první adjektivum odkazuje k základní distinkci mezi dynamickými a statistickými texty, druhé (příp. třetí) adjektivum odkazuje k doplňkové vlastnosti charakteristické pro daný registr.+Název registru se skládá ze dvou částí. První označuje prototypickou vlastnost dané skupiny textů jako vodítko pro představu: může jí být slohový postup (//narace//, //argumentace//, //analýza//, //fakta//), komunikační oblast, popřípadě formát (//žurnalistika//, //scénář//, //anketa//) nebo záměr sdělení (//popularizace//, //komentář//). Druhou část názvu tvoří zpřesňující adjektiva charakterizující registr na základě výrazných dimenzí: první adjektivum odkazuje k základní distinkci mezi dynamickými a statistickými texty, druhé (příp. třetí) adjektivum odkazuje k doplňkové vlastnosti charakteristické pro daný registr.
  
 **Statické registry:** **Statické registry:**
Řádek 44: Řádek 44:
  
 Při popisu registrů budeme odkazovat jednak k průměrnému umístění textů daného registru na jednotlivých dimenzích a jednak se registr pokusíme přiblížit ukázkou z korpusu [[cnk:koditex|Koditex]], včetně informace o vnětextové klasifikaci textu, z něhož ukázka pochází (význam zkratek viz popis korpusu).  Při popisu registrů budeme odkazovat jednak k průměrnému umístění textů daného registru na jednotlivých dimenzích a jednak se registr pokusíme přiblížit ukázkou z korpusu [[cnk:koditex|Koditex]], včetně informace o vnětextové klasifikaci textu, z něhož ukázka pochází (význam zkratek viz popis korpusu). 
 +
 +===== Spolehlivost registrové klasifikace =====
 +
 +To, jestli je text nebo výsek textu příkladem určitého registru, je v zásadě určeno tím, jakou vzdálenost má v multidimenzionálním prostoru od pomyslného prototypického textu. Kromě případů, které jsou jednoznačné, můžou nastat ještě dvě specifické situace:
 +
 +  * text je stejně podobný dvěma registrům (má stejně blízko k prototypickým zástupcům dvou registrů), v takovém případě jde o text či úsek textu registrově **smíšený**
 +  * text není podobný žádnému z registrů (je vzdálen od všech registrů více, než je obvyklé), v takovém případě mluvíme o textech nebo úsecích registrově **nevyhraněných** či **okrajových**
 +
 +Do registrové anotace se tato informace propíše prostřednictvím atributu ''register_reliability'', který nabývá hodnot //okrajový//, //smíšený//, //spolehlivý//. Tento atribut se přitom neobjevuje pouze u struktury ''<chunk>'', ale i u struktury ''<doc>'', kde vyjadřuje jednak míru spolehlivosti určení převažujícího registru (''prevailing_register''), ale také zároveň spolehlivost určení registrů u dílčích chunků daného dokumentu. Jeho hodnoty je třeba interpretovat takto:
 +
 +  * spolehlivý -- nadpoloviční většina textu má jednoznačné a jednotné registrové určení
 +  * smíšený -- text se skládá z částí, které mají různou registrovou platnost, a/nebo části textu jsou ve většině registrově smíšené
 +  * okrajový -- text je z větší části složen z úseků registrově nevyhraněných
 +  * NA (prázdná hodnota) -- žádný registr v textu nepřevažuje
 +
 ===== Statické registry ===== ===== Statické registry =====