====== Textová pozice ====== V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy:token|tokenizace]], se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o **pozicích**. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka. Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes přijde?// je tokenizována následujícím způsobem: | 1 | 2 | 3 | 4 | 5 | 6 | | Hádej | , | kdo | dnes | přijde | ? | a obsahuje tak 6 samostatných pozic. V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako ''např.'', ''apod.'', ''Rakousko-Uhersko'', jednou pozicí, v jiných korpusech jsou rozdělena na více pozic (dvě pozice v případě ''např .'', ''apod .'', tři pozice v případě ''Rakousko - Uhersko''). Tokenizace numerických a interpunkčních znaků je podrobně popsána na příkladu korpusu SYN2020 [[cnk:syn2020:tokenizace|na této stránce]]. ===== Pozice v konkordanci ===== V rámci [[pojmy:konkordance|konkordance]] jsou pozice číslovány relativně k hledanému slovu ([[pojmy:kwic|KWIC]]). Číslování pozic v rámci jednoho konkordančního řádku lemmatu //dřevo// shrnuje následující tabulka: ^ konkordance | místnosti | . | Byly | z | těžkého | tmavého | **dřeva** | a | zlověstně | zaskřípaly | . | Poslepu | jsem | ^ pozice | 6L | 5L | 4L | 3L | 2L | 1L | KWIC | 1R | 2R | 3R | 4R | 5R | 6R | ^ pozice (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | KWIC | 1 | 2 | 3 | 4 | 5 | 6 | V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky //L// (pro levý kontext) a //R// (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou): ^ konkordance | znečišťování | ovzduší | . | Moderní | kotle | na | **dřevo** | **a** | **uhlí** | splňují | dnes | všechny | požadavky | z | hlediska | ^ pozice (počítáno zleva) | 6L | 5L | 4L | 3L | 2L | 1L | KWIC | 1R | 2R | 3R | 4R | 5R | 6R | 7R | 8R | ^ totéž (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | KWIC | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | ^ pozice (počítáno zprava) | 8L | 7L | 6L | 5L | 4L | 3L | 2L | 1L | KWIC | 1R | 2R | 3R | 4R | 5R | 6R | ^ totéž (starší notace | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 | KWIC | 1 | 2 | 3 | 4 | 5 | 6 | V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava. ==== Související odkazy ==== [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:token|Token]] • [[pojmy:typ|Typ/Type]]