Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Následující verze | Předchozí verze | ||
| pojmy:token [2012/10/16 15:40] – vytvořeno vaclavcvrcek | pojmy:token [2021/01/16 21:55] (aktuální) – [Token] jankrivan | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| ====== Token ====== | ====== Token ====== | ||
| - | Token je nejmenší jednotka textu, většinou grafické slovo, resp. jedna jeho realizace. V některých případech je jedno grafické slovo rozděleno na dvě (např. //mohu -li//), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: //řekl , že//). O jednotlivých tokenech v korpusu se také mluví jako o [[pozice|pozicích]]. | + | Token je nejmenší jednotka textu, většinou |
| - | Velikost korpusu se udává v tokenech nebo také v textových slovech. Rozčlenění textu na tokeny je výsledkem procesu tokenizace. | + | Velikost korpusu se udává v tokenech nebo také v textových |
| + | |||
| + | V opozici k tokenům se vyděluje jako vyšší rovina abstrakce [[pojmy: | ||
| + | |||
| + | ==== Související odkazy ==== | ||
| + | |||
| + | <WRAP round box 49%> | ||
| + | [[pojmy: | ||
| + | </ | ||