AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
pojmy:segmentace [2013/06/20 14:17] – vytvořeno vaclavcvrcekpojmy:segmentace [2014/11/24 12:55] (aktuální) vaclavcvrcek
Řádek 1: Řádek 1:
 ====== Segmentace ====== ====== Segmentace ======
  
-Z pohledu korpusové lingvistiky je segmentace členění textu či obvykle jeho větších částí (popř. celého korpusu) na menší úseky určitého typu či stejné povahy pro účely bližší analýzy, dnes zpravidla automatickými metodami. Nejběžnější je segmentace na věty nebo slova ([[pojmy:token|tokenizace]]), segmentace větná; obecně se však segmentace textů provádí i na morfémy či grafémy.+Z pohledu korpusové lingvistiky je segmentace členění textu na menší úseky určitého typu či stejné povahy pro účely bližší analýzy. Provádí se zpravidla automatickými metodami. Nejběžnější je segmentace větná; obecně se však segmentace textů provádí i na morfémy či grafémy. Segmentace na slova se obvykle nazývá [[pojmy:token|tokenizace]], neboť slovo je základní vyhledávací jednotkou (angl. //token//) v korpusu.
  
 ===== Segmentace větná ===== ===== Segmentace větná =====
  
-Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný segmenter/segmentátor. Je to po [[pojmy:token|tokenizaci]] obvykle druhá fáze automatického zpracování textu. +Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný //segmenter/segmentátor//. Je to vedle [[pojmy:token|tokenizace]] obvykle další důležitá fáze automatického zpracování textu. 
  
-Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymnínapř. tečka, jež ukončuje jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek, resp. konec věty explicitně vyznačí zvláštní značkou značkovacího jazyka (napřXML), např. ''<s>''resp. ''</s>'' (viz [[pojmy:atributy_strukturni|strukturní atributy]]). Například text+Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní např. tečka, jež ukončuje v češtině jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek (přípkonecvěty explicitně vyznačí zvláštní značkou značkovacího jazyka (XML apod.), např. ''<s>'' (resp. ''</s>''(viz též [[pojmy:atributy_strukturni|strukturní atributy]]). Například text
  
 //Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.// //Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.//
  
-obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečka za //Kr// je totiž víceznačná a následující slovo začíná velkým písmenem) správně segmentoval takto:+obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečky za //př.// a //Kr.// jsou totiž víceznačné, zvláště když následující slovo začíná velkým písmenem stejně jako začínají nové věty) správně segmentoval takto:
  
-''<s>Caesar byl zavražděn r. 43 př. Kr. </s>+''<s>Caesar byl zavražděn r. 43 př. Kr.</s>''
  
-<s>Řím byl tehdy na pokraji převratu.</s>''+''<s>Řím byl tehdy na pokraji převratu.</s>''
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
-[[pojmy:struktura_korpusu|Struktura korpusu]] +<WRAP round box 50%> 
- +[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:token|Token]] 
-[[pojmy:atributy_strukturni|Strukturní atributy]] +</WRAP>
- +
-[[pojmy:token|Token]] +