AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Textová pozice

V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem tokenizace, se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.

Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta Hádej, kdo dnes přijde? je tokenizována následujícím způsobem:

1 2 3 4 5 6
Hádej , kdo dnes přijde ?

a obsahuje tak 6 samostatných pozic.

V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako např., apod., ekonomicko-sociologický, jednou pozicí, v jiných korpusech jsou to pozice dvě.

Pozice v konkordanci

V rámci konkordance jsou pozice číslovány relativně k hledanému slovu (KWIC). Číslování pozic v rámci jednoho konkordančního řádku lemmatu dřevo shrnuje následující tabulka:

konkordance místnosti . Byly z těžkého tmavého dřeva a zlověstně zaskřípaly . Poslepu jsem
pozice 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R
pozice (starší notace) -6 -5 -4 -3 -2 -1 KWIC 1 2 3 4 5 6

S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze dřevo a uhlí). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou):

konkordance znečišťování ovzduší . Moderní kotle na dřevo a uhlí splňují dnes všechny požadavky z hlediska
pozice (počítáno zleva) 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R 7R 8R
pozice (počítáno zprava) 8L 7L 6L 5L 4L 3L 2L 1L KWIC 1R 2R 3R 4R 5R 6R

Související odkazy