====== Textová pozice ======

V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy:token|tokenizace]], se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o **pozicích**. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.

Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes přijde?// je tokenizována následujícím způsobem:

| 1 | 2 | 3 | 4 | 5 | 6 |
| Hádej | , | kdo | dnes | přijde | ? |

a obsahuje tak 6 samostatných pozic.

V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako ''např.'', ''apod.'', ''Rakousko-Uhersko'',  jednou pozicí, v jiných korpusech jsou rozdělena na více pozic (dvě pozice v případě ''např .'', ''apod .'', tři pozice v případě ''Rakousko - Uhersko''). Tokenizace numerických a interpunkčních znaků je podrobně popsána na příkladu korpusu SYN2020 [[cnk:syn2020:tokenizace|na této stránce]].

===== Pozice v konkordanci =====

V rámci [[pojmy:konkordance|konkordance]] jsou pozice číslovány relativně k hledanému slovu ([[pojmy:kwic|KWIC]]).  Číslování pozic v rámci jednoho konkordančního řádku lemmatu //dřevo// shrnuje následující tabulka:

^ konkordance  | místnosti | . | Byly | z | těžkého | tmavého	|  **<fc #FF0000>dřeva</fc>**  | a | zlověstně | zaskřípaly | . | Poslepu | jsem |
^ pozice  |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  |  5R  |  6R  |
^ pozice (starší notace)  |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  |  5  |  6  |

V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky //L// (pro levý kontext) a //R// (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou):

^ konkordance  | znečišťování | ovzduší | . | Moderní | kotle | na |  **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>**  | splňují | dnes | všechny | požadavky | z | hlediska | 
^ pozice (počítáno zleva) |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1R</fc>  |  <fc #FF0000>2R</fc>  |  3R  |  4R  |  5R  |  6R  | 7R | 8R |
^ totéž (starší notace) |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1</fc>  |  <fc #FF0000>2</fc>  |  3  |  4  |  5  |  6  | 7 | 8 |
^ pozice (počítáno zprava) |  8L  |  7L  |  6L  |  5L  |  4L  |  3L  |  <fc #FF0000>2L</fc>  |  <fc #FF0000>1L</fc>  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  | 5R | 6R |
^ totéž (starší notace |  -8  |  -7  |  -6  |  -5  |  -4  |  -3  |  <fc #FF0000>-2</fc>  |  <fc #FF0000>-1</fc>  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  | 5 | 6 |

V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava.

==== Související odkazy ====

<WRAP round box 49%>
[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:token|Token]] • [[pojmy:typ|Typ/Type]]
</WRAP>