Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:token [2013/08/22 16:52] – alzbetavitkova | pojmy:token [2021/01/16 21:55] (aktuální) – [Token] jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Token ====== | ====== Token ====== | ||
- | Token je nejmenší jednotka textu, většinou se jedná o grafické slovo, resp. o jednu jeho konkrétní realizaci. V některých případech je jedno grafické slovo rozděleno na dvě (např. //mohu -li//), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: //řekl , že//). O jednotlivých tokenech v korpusu se také mluví jako o [[pojmy: | + | Token je nejmenší jednotka textu, většinou se jedná o grafické slovo (tj. řetězec alfabetických znaků oddělený mezerou v textu), resp. o jednu jeho konkrétní realizaci. V některých případech je jedno grafické slovo rozděleno na dvě (např. //mohu -li//), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: //řekl , že//). O jednotlivých tokenech v korpusu se také mluví jako o [[pojmy: |
- | Velikost korpusu se udává v tokenech nebo také v textových slovech. Rozčlenění textu na tokeny je výsledkem procesu **tokenizace**. | + | Velikost korpusu se udává v tokenech nebo také v textových |
V opozici k tokenům se vyděluje jako vyšší rovina abstrakce [[pojmy: | V opozici k tokenům se vyděluje jako vyšší rovina abstrakce [[pojmy: | ||
==== Související odkazy ==== | ==== Související odkazy ==== | ||
+ | |||
<WRAP round box 49%> | <WRAP round box 49%> | ||
- | [[pojmy: | + | [[pojmy: |
</ | </ |