Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze | ||
pojmy:pozice [2013/06/20 14:03] – vytvořeno vaclavcvrcek | pojmy:pozice [2021/01/16 21:45] (aktuální) – [Textová pozice] jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Textová pozice ====== | ====== Textová pozice ====== | ||
- | V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy: | + | V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy: |
- | Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes příjde?// je tokenizována následujícím způsobem: | + | Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes přijde?// je tokenizována následujícím způsobem: |
| 1 | 2 | 3 | 4 | 5 | 6 | | | 1 | 2 | 3 | 4 | 5 | 6 | | ||
Řádek 10: | Řádek 10: | ||
a obsahuje tak 6 samostatných pozic. | a obsahuje tak 6 samostatných pozic. | ||
- | V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy | + | V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy |
+ | ===== Pozice v konkordanci ===== | ||
+ | |||
+ | V rámci [[pojmy: | ||
+ | |||
+ | ^ konkordance | ||
+ | ^ pozice | ||
+ | ^ pozice (starší notace) | ||
+ | |||
+ | V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky //L// (pro levý kontext) a //R// (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, | ||
+ | |||
+ | ^ konkordance | ||
+ | ^ pozice (počítáno zleva) | 6L | 5L | 4L | 3L | 2L | 1L | <fc # | ||
+ | ^ totéž (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | <fc # | ||
+ | ^ pozice (počítáno zprava) | 8L | 7L | 6L | 5L | 4L | 3L | <fc # | ||
+ | ^ totéž (starší notace | -8 | -7 | -6 | -5 | -4 | -3 | <fc # | ||
+ | |||
+ | V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava. | ||
+ | |||
+ | ==== Související odkazy ==== | ||
+ | |||
+ | <WRAP round box 49%> | ||
+ | [[pojmy: | ||
+ | </ |