====== Segmentace ====== Z pohledu korpusové lingvistiky je segmentace členění textu na menší úseky určitého typu či stejné povahy pro účely bližší analýzy. Provádí se zpravidla automatickými metodami. Nejběžnější je segmentace větná; obecně se však segmentace textů provádí i na morfémy či grafémy. Segmentace na slova se obvykle nazývá [[pojmy:token|tokenizace]], neboť slovo je základní vyhledávací jednotkou (angl. //token//) v korpusu. ===== Segmentace větná ===== Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný //segmenter/segmentátor//. Je to vedle [[pojmy:token|tokenizace]] obvykle další důležitá fáze automatického zpracování textu. Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní - např. tečka, jež ukončuje v češtině jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek (příp. i konec) věty explicitně vyznačí zvláštní značkou značkovacího jazyka (XML apod.), např. '''' (resp. '''') (viz též [[pojmy:atributy_strukturni|strukturní atributy]]). Například text //Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.// obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečky za //př.// a //Kr.// jsou totiž víceznačné, zvláště když následující slovo začíná velkým písmenem stejně jako začínají nové věty) správně segmentoval takto: ''Caesar byl zavražděn r. 43 př. Kr.'' ''Řím byl tehdy na pokraji převratu.'' ==== Související odkazy ==== [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:token|Token]]