Obsah

Textová pozice

V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem tokenizace, se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.

Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta Hádej, kdo dnes přijde? je tokenizována následujícím způsobem:

1 2 3 4 5 6
Hádej , kdo dnes přijde ?

a obsahuje tak 6 samostatných pozic.

V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako např., apod., Rakousko-Uhersko, jednou pozicí, v jiných korpusech jsou rozdělena na více pozic (dvě pozice v případě např ., apod ., tři pozice v případě Rakousko - Uhersko). Tokenizace numerických a interpunkčních znaků je podrobně popsána na příkladu korpusu SYN2020 na této stránce.

Pozice v konkordanci

V rámci konkordance jsou pozice číslovány relativně k hledanému slovu (KWIC). Číslování pozic v rámci jednoho konkordančního řádku lemmatu dřevo shrnuje následující tabulka:

konkordance místnosti . Byly z těžkého tmavého dřeva a zlověstně zaskřípaly . Poslepu jsem
pozice 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R
pozice (starší notace) -6 -5 -4 -3 -2 -1 KWIC 1 2 3 4 5 6

V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky L (pro levý kontext) a R (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze dřevo a uhlí). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou):

konkordance znečišťování ovzduší . Moderní kotle na dřevo a uhlí splňují dnes všechny požadavky z hlediska
pozice (počítáno zleva) 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R 7R 8R
totéž (starší notace) -6 -5 -4 -3 -2 -1 KWIC 1 2 3 4 5 6 7 8
pozice (počítáno zprava) 8L 7L 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R
totéž (starší notace -8 -7 -6 -5 -4 -3 -2 -1 KWIC 1 2 3 4 5 6

V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava.

Související odkazy