====== Segmentace ======

Z pohledu korpusové lingvistiky je segmentace členění textu na menší úseky určitého typu či stejné povahy pro účely bližší analýzy. Provádí se zpravidla automatickými metodami. Nejběžnější je segmentace větná; obecně se však segmentace textů provádí i na morfémy či grafémy. Segmentace na slova se obvykle nazývá [[pojmy:token|tokenizace]], neboť slovo je základní vyhledávací jednotkou (angl. //token//) v korpusu.

===== Segmentace větná =====

Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný //segmenter/segmentátor//. Je to vedle [[pojmy:token|tokenizace]] obvykle další důležitá fáze automatického zpracování textu. 

Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní - např. tečka, jež ukončuje v češtině jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek (příp. i konec) věty explicitně vyznačí zvláštní značkou značkovacího jazyka (XML apod.), např. ''<s>'' (resp. ''</s>'') (viz též [[pojmy:atributy_strukturni|strukturní atributy]]). Například text

//Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.//

obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečky za //př.// a //Kr.// jsou totiž víceznačné, zvláště když následující slovo začíná velkým písmenem stejně jako začínají nové věty) správně segmentoval takto:

''<s>Caesar byl zavražděn r. 43 př. Kr.</s>''

''<s>Řím byl tehdy na pokraji převratu.</s>''

==== Související odkazy ====

<WRAP round box 50%>
[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:token|Token]]
</WRAP>