AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Textová pozice

V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem tokenizace, se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.

Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta Hádej, kdo dnes přijde? je tokenizována následujícím způsobem:

1 2 3 4 5 6
Hádej , kdo dnes přijde ?

a obsahuje tak 6 samostatných pozic.

V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako např., apod., ekonomicko-sociologický, jednou pozicí, v jiných korpusech jsou to pozice dvě.

Související odkazy