AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:segmentace [2013/06/20 14:17] – vytvořeno vaclavcvrcekpojmy:segmentace [2013/09/13 15:33] – Schvaleno pro 1. verzi vaclavcvrcek
Řádek 5: Řádek 5:
 ===== Segmentace větná ===== ===== Segmentace větná =====
  
-Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný segmenter/segmentátor. Je to po [[pojmy:token|tokenizaci]] obvykle druhá fáze automatického zpracování textu. +Automatický proces, při němž se text dělí na věty. Větnou segmentaci provádí počítačový program zvaný //segmenter/segmentátor//. Je to po [[pojmy:token|tokenizaci]] obvykle druhá fáze automatického zpracování textu. 
  
-Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní, např. tečka, jež ukončuje jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek, resp. konec věty explicitně vyznačí zvláštní značkou značkovacího jazyka (např. XML), např. ''<s>'', resp. ''</s>'' (viz [[pojmy:atributy_strukturni|strukturní atributy]]). Například text+Větná segmentace je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní, např. tečka, jež ukončuje jak větu, tak i zkratku. Při větné segmentaci se obvykle počátek, resp. konec věty explicitně vyznačí zvláštní značkou značkovacího jazyka (XML apod.), např. ''<s>'', resp. ''</s>'' (viz [[pojmy:atributy_strukturni|strukturní atributy]]). Například text
  
 //Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.// //Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.//
Řádek 13: Řádek 13:
 obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečka za //Kr// je totiž víceznačná a následující slovo začíná velkým písmenem) správně segmentoval takto: obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečka za //Kr// je totiž víceznačná a následující slovo začíná velkým písmenem) správně segmentoval takto:
  
-''<s>Caesar byl zavražděn r. 43 př. Kr. </s>+''<s>Caesar byl zavražděn r. 43 př. Kr. </s>''
  
-<s>Řím byl tehdy na pokraji převratu.</s>''+''<s>Řím byl tehdy na pokraji převratu.</s>''
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
-[[pojmy:struktura_korpusu|Struktura korpusu]] +<WRAP round box 49%> 
- +[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:token|Token]] 
-[[pojmy:atributy_strukturni|Strukturní atributy]] +</WRAP>
- +
-[[pojmy:token|Token]] +