Segmentace

Z pohledu korpusové lingvistiky je segmentace členění textu na menší úseky určitého typu či stejné povahy pro účely bližší analýzy. Provádí se zpravidla automatickými metodami. Nejběžnější je segmentace větná; obecně se však segmentace textů provádí i na morfémy či grafémy. Segmentace na slova se obvykle nazývá tokenizace, neboť slovo je základní vyhledávací jednotkou (angl. token) v korpusu.

Segmentace větná

Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný segmenter/segmentátor. Je to vedle tokenizace obvykle další důležitá fáze automatického zpracování textu.

Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní - např. tečka, jež ukončuje v češtině jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek (příp. i konec) věty explicitně vyznačí zvláštní značkou značkovacího jazyka (XML apod.), např. <s> (resp. </s>) (viz též strukturní atributy). Například text

Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.

obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečky za př. a Kr. jsou totiž víceznačné, zvláště když následující slovo začíná velkým písmenem stejně jako začínají nové věty) správně segmentoval takto:

<s>Caesar byl zavražděn r. 43 př. Kr.</s>

<s>Řím byl tehdy na pokraji převratu.</s>