====== Segmentace ======
Z pohledu korpusové lingvistiky je segmentace členění textu na menší úseky určitého typu či stejné povahy pro účely bližší analýzy. Provádí se zpravidla automatickými metodami. Nejběžnější je segmentace větná; obecně se však segmentace textů provádí i na morfémy či grafémy. Segmentace na slova se obvykle nazývá [[pojmy:token|tokenizace]], neboť slovo je základní vyhledávací jednotkou (angl. //token//) v korpusu.
===== Segmentace větná =====
Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný //segmenter/segmentátor//. Je to vedle [[pojmy:token|tokenizace]] obvykle další důležitá fáze automatického zpracování textu.
Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní - např. tečka, jež ukončuje v češtině jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek (příp. i konec) věty explicitně vyznačí zvláštní značkou značkovacího jazyka (XML apod.), např. '''' (resp. '''') (viz též [[pojmy:atributy_strukturni|strukturní atributy]]). Například text
//Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.//
obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečky za //př.// a //Kr.// jsou totiž víceznačné, zvláště když následující slovo začíná velkým písmenem stejně jako začínají nové věty) správně segmentoval takto:
''Caesar byl zavražděn r. 43 př. Kr.''
''Řím byl tehdy na pokraji převratu.''
==== Související odkazy ====
[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:token|Token]]