Textová pozice
V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem tokenizace, se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.
Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta Hádej, kdo dnes přijde? je tokenizována následujícím způsobem:
1 | 2 | 3 | 4 | 5 | 6 |
Hádej | , | kdo | dnes | přijde | ? |
a obsahuje tak 6 samostatných pozic.
V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako např.
, apod.
, Rakousko-Uhersko
, jednou pozicí, v jiných korpusech jsou rozdělena na více pozic (dvě pozice v případě např .
, apod .
, tři pozice v případě Rakousko - Uhersko
). Tokenizace numerických a interpunkčních znaků je podrobně popsána na příkladu korpusu SYN2020 na této stránce.
Pozice v konkordanci
V rámci konkordance jsou pozice číslovány relativně k hledanému slovu (KWIC). Číslování pozic v rámci jednoho konkordančního řádku lemmatu dřevo shrnuje následující tabulka:
konkordance | místnosti | . | Byly | z | těžkého | tmavého | dřeva | a | zlověstně | zaskřípaly | . | Poslepu | jsem |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
pozice | 6L | 5L | 4L | 3L | 2L | 1L | KWIC | 1R | 2R | 3R | 4R | 5R | 6R |
pozice (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | KWIC | 1 | 2 | 3 | 4 | 5 | 6 |
V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky L (pro levý kontext) a R (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze dřevo a uhlí). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou):
konkordance | znečišťování | ovzduší | . | Moderní | kotle | na | dřevo | a | uhlí | splňují | dnes | všechny | požadavky | z | hlediska |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
pozice (počítáno zleva) | 6L | 5L | 4L | 3L | 2L | 1L | KWIC | 1R | 2R | 3R | 4R | 5R | 6R | 7R | 8R |
totéž (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | KWIC | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
pozice (počítáno zprava) | 8L | 7L | 6L | 5L | 4L | 3L | 2L | 1L | KWIC | 1R | 2R | 3R | 4R | 5R | 6R |
totéž (starší notace | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 | KWIC | 1 | 2 | 3 | 4 | 5 | 6 |
V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava.