Toto je starší verze dokumentu!
Textová pozice
V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem tokenizace, se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.
Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta Hádej, kdo dnes přijde? je tokenizována následujícím způsobem:
1 | 2 | 3 | 4 | 5 | 6 |
Hádej | , | kdo | dnes | přijde | ? |
a obsahuje tak 6 samostatných pozic.
V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako např.
, apod.
, ekonomicko-sociologický
, jednou pozicí, v jiných korpusech jsou to pozice dvě.