AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Segmentace

Z pohledu korpusové lingvistiky je segmentace členění textu či obvykle jeho větších částí (popř. celého korpusu) na menší úseky určitého typu či stejné povahy pro účely bližší analýzy, dnes zpravidla automatickými metodami. Nejběžnější je segmentace na věty nebo slova (tokenizace), segmentace větná; obecně se však segmentace textů provádí i na morfémy či grafémy.

Segmentace větná

Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný segmenter/segmentátor. Je to po tokenizaci obvykle druhá fáze automatického zpracování textu.

Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní, např. tečka, jež ukončuje jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek, resp. konec věty explicitně vyznačí zvláštní značkou značkovacího jazyka (např. XML), např. <s>, resp. </s> (viz strukturní atributy). Například text

Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.

obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečka za Kr je totiž víceznačná a následující slovo začíná velkým písmenem) správně segmentoval takto:

<s>Caesar byl zavražděn r. 43 př. Kr. </s>

<s>Řím byl tehdy na pokraji převratu.</s>

Související odkazy