AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
pojmy:token [2013/09/13 16:20] – Schvaleno pro 1. verzi Václav Cvrčekpojmy:token [2014/11/24 13:05] Václav Cvrček
Řádek 1: Řádek 1:
 ====== Token ====== ====== Token ======
  
-Token je nejmenší jednotka textu, většinou se jedná o grafické slovo, resp. o jednu jeho konkrétní realizaci. V některých případech je jedno grafické slovo rozděleno na dvě (např. //mohu -li//), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: //řekl , že//). O jednotlivých tokenech v korpusu se také mluví jako o [[pojmy:pozice|pozicích]].+Token je nejmenší jednotka textu, většinou se jedná o grafické slovo (tj. řetězec alfabetických znaků oddělený mezerou v textu), resp. o jednu jeho konkrétní realizaci. V některých případech je jedno grafické slovo rozděleno na dvě (např. //mohu -li//), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: //řekl , že//). O jednotlivých tokenech v korpusu se také mluví jako o [[pojmy:pozice|pozicích]].
  
-Velikost korpusu se udává v tokenech nebo také v textových slovech. Rozčlenění textu na tokeny je výsledkem procesu **tokenizace**.+Velikost korpusu se udává v tokenech nebo také v textových či grafických slovech. Rozčlenění textu na tokeny je výsledkem procesu **tokenizace**.
  
 V opozici k tokenům se vyděluje jako vyšší rovina abstrakce [[pojmy:typ|typ]] (anglicky //type//). V opozici k tokenům se vyděluje jako vyšší rovina abstrakce [[pojmy:typ|typ]] (anglicky //type//).
Řádek 10: Řádek 10:
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[pojmy:heaps|Heapsův zákon]] • [[pojmy:zipf|Zipfovy zákony]]  • [[pojmy:pozice|Textová pozice]]+[[pojmy:heaps|Heapsův zákon]] • [[pojmy:zipf|Zipfovy zákony]]  • [[pojmy:pozice|Textová pozice]] • [[pojmy:segmentace|Segmentace]]
 </WRAP> </WRAP>