Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:registrova_klasifikace [2019/06/20 08:42] – [Analýza: statický monotematický] zuzanakomrskovacnk:registrova_klasifikace [2021/02/12 14:50] (aktuální) – [Spolehlivost registrové klasifikace] michalskrabal
Řádek 8: Řádek 8:
 bylo vymezeno 10 registrů, které pokrývají celé spektrum textů od mluvených přes webové až po psané. Přiřazení textu k registru je automatické na základě lingvistických rysů, které se v textu využívají. bylo vymezeno 10 registrů, které pokrývají celé spektrum textů od mluvených přes webové až po psané. Přiřazení textu k registru je automatické na základě lingvistických rysů, které se v textu využívají.
  
-Název registru se skládá ze dvou částí. První označuje prototypickou vlastnost dané skupiny textů jako vodítko pro představu: může jí být slohový postup (//narace//, //argumentace//, //analýza//)komunikační oblast (//žurnalistika//), popřípadě formát (//komentář//, //scénář//, //anketa//) nebo cíl sdělení (//popularizace//, //fakta//). Druhou část názvu tvoří zpřesňující adjektiva charakterizující registr na základě výrazných dimenzí: první adjektivum odkazuje k základní distinkci mezi dynamickými a statistickými texty, druhé (příp. třetí) adjektivum odkazuje k doplňkové vlastnosti charakteristické pro daný registr.+Název registru se skládá ze dvou částí. První označuje prototypickou vlastnost dané skupiny textů jako vodítko pro představu: může jí být slohový postup (//narace//, //argumentace//, //analýza//, //fakta//), komunikační oblast, popřípadě formát (//žurnalistika//, //scénář//, //anketa//) nebo záměr sdělení (//popularizace//, //komentář//). Druhou část názvu tvoří zpřesňující adjektiva charakterizující registr na základě výrazných dimenzí: první adjektivum odkazuje k základní distinkci mezi dynamickými a statistickými texty, druhé (příp. třetí) adjektivum odkazuje k doplňkové vlastnosti charakteristické pro daný registr.
  
 **Statické registry:** **Statické registry:**
Řádek 41: Řádek 41:
   - postojovost (+) vs. faktuálnost (-)     - postojovost (+) vs. faktuálnost (-)  
  
-Pro každý text lze na základě jazykových rysů, které obsahuje, zjistit jeho pozici na každé z 8 dimenzí (viz graf). Na základě těchto pozic lze pak vytvořit shluky textů, které mají podobné pozice a jsou si tedy z hlediska využití těchto lingvistických rysů podobné (mají stejný registr). A z druhé strany: pozice těchto registrů slouží k jejich interpretaci či popisu typických vlastností.+Pro každý text lze na základě jazykových rysů, které obsahuje, zjistit jeho pozici na každé z 8 dimenzí (viz graf). Na základě těchto pozic lze pak vytvořit shluky textů, které mají podobné pozicea jsou si tedy z hlediska využití těchto lingvistických rysů podobné (mají stejný registr). A z druhé strany: pozice těchto registrů slouží k jejich interpretaci či popisu typických vlastností.
  
 Při popisu registrů budeme odkazovat jednak k průměrnému umístění textů daného registru na jednotlivých dimenzích a jednak se registr pokusíme přiblížit ukázkou z korpusu [[cnk:koditex|Koditex]], včetně informace o vnětextové klasifikaci textu, z něhož ukázka pochází (význam zkratek viz popis korpusu).  Při popisu registrů budeme odkazovat jednak k průměrnému umístění textů daného registru na jednotlivých dimenzích a jednak se registr pokusíme přiblížit ukázkou z korpusu [[cnk:koditex|Koditex]], včetně informace o vnětextové klasifikaci textu, z něhož ukázka pochází (význam zkratek viz popis korpusu). 
 +
 +===== Spolehlivost registrové klasifikace =====
 +
 +To, jestli je text nebo výsek textu příkladem určitého registru, je v zásadě určeno tím, jakou vzdálenost má v multidimenzionálním prostoru od pomyslného prototypického textu. Kromě případů, které jsou jednoznačné, můžou nastat ještě dvě specifické situace:
 +
 +  * text je stejně podobný dvěma registrům (má stejně blízko k prototypickým zástupcům dvou registrů), v takovém případě jde o text či úsek textu registrově **smíšený**
 +  * text není podobný žádnému z registrů (je vzdálen od všech registrů více, než je obvyklé), v takovém případě mluvíme o textech nebo úsecích registrově **nevyhraněných** či **okrajových**
 +
 +Do registrové anotace se tato informace propíše prostřednictvím atributu ''register_reliability'', který nabývá hodnot //okrajový//, //smíšený//, //spolehlivý//. Tento atribut se přitom neobjevuje pouze u struktury ''<chunk>'', ale i u struktury ''<doc>'', kde vyjadřuje jednak míru spolehlivosti určení převažujícího registru (''prevailing_register''), ale také zároveň spolehlivost určení registrů u dílčích chunků daného dokumentu. Jeho hodnoty je třeba interpretovat takto:
 +
 +  * spolehlivý -- nadpoloviční většina textu má jednoznačné a jednotné registrové určení
 +  * smíšený -- text se skládá z částí, které mají různou registrovou platnost, a/nebo části textu jsou ve většině registrově smíšené
 +  * okrajový -- text je z větší části složen z úseků registrově nevyhraněných
 +  * NA (prázdná hodnota) -- žádný registr v textu nepřevažuje
 +
 ===== Statické registry ===== ===== Statické registry =====
  
Řádek 57: Řádek 72:
 ==== Popularizace: statický polytematický obecný ==== ==== Popularizace: statický polytematický obecný ====
  
-Tento registr rovněž patří mezi **statické** (1. dimenze) rejstříky, jeho odlišujícím rysem je nicméně krajní poloha na dimenzi 6 ukazující na převahu textů s **obecnou** platností, nezaměřujících se na konkréta. Charakteristická je pro tento registr obsahující typicky výkladové texty koncipované se zřetelem na čtenáře i značná **polytematičnost** (4. dimenze), **připravenost** (2. dimenze) a **nízká míra koheze** (3. dimenze), která odkazuje k vysokému zastoupení encyklopedických děl, popularizací a návodů v tomto registru.+Tento registr rovněž patří mezi **statické** (1. dimenze) rejstříky, jeho odlišujícím rysem je nicméně krajní poloha na dimenzi 6 ukazující na převahu textů s **obecnou** platností, nezaměřujících se na jevy v bezprostředním kontextu komunikační situace ("tady a teď") 
 +Charakteristická je pro tento registr i značná **polytematičnost** (4. dimenze), **připravenost** (2. dimenze) a **nízká míra koheze** (3. dimenze).  Poslední dimenze odkazuje k vysokému zastoupení encyklopedických děl, popularizací a návodů v tomto registru a svědčí o tom, že jde o texty koncipované s ohledem na srozumitelnost pro čtenáře. 
  
 == Ukázka == == Ukázka ==
Řádek 83: Řádek 100:
 ==== Argumentace: statický kohezní ==== ==== Argumentace: statický kohezní ====
  
-Výrazným rysem tohoto **statického** registru je **extrémní míra koheze** (3. dimenze) odkazující k připravenému výkladu. Toto zaměření se odráží i v relativní **připravenosti** (2. dimenze) a vyšší míře **postojovosti** (dimenze 8), jakou bychom očekávali v argumentaci. Dalším rysem je i poměrně vyšší postavení v dimenzi 6 značící zaměření na **obecné** jevy spíše než na konkréta.+Výrazným rysem tohoto **statického** registru je **extrémní míra koheze** (3. dimenze) odkazující k připravenému výkladu. Toto zaměření se odráží i v relativní **připravenosti** (2. dimenze) a vyšší míře **postojovosti** (dimenze 8), jakou bychom očekávali v argumentaci. Dalším rysem je i poměrně vyšší postavení v dimenzi 6 značící zaměření na **obecné** jevy spíše než na jedinečné jevy s aktuálním významem pro komunikaci.
  
 == Ukázka == == Ukázka ==