Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:pozice [2013/06/20 14:07] – vaclavcvrcek | pojmy:pozice [2021/01/16 21:45] (aktuální) – [Textová pozice] jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Textová pozice ====== | ====== Textová pozice ====== | ||
- | V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy: | + | V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy: |
- | Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes příjde?// je tokenizována následujícím způsobem: | + | Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes přijde?// je tokenizována následujícím způsobem: |
| 1 | 2 | 3 | 4 | 5 | 6 | | | 1 | 2 | 3 | 4 | 5 | 6 | | ||
Řádek 10: | Řádek 10: | ||
a obsahuje tak 6 samostatných pozic. | a obsahuje tak 6 samostatných pozic. | ||
- | V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako '' | + | V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako '' |
- | ==== Související odkazy | + | ===== Pozice v konkordanci ===== |
- | [[pojmy:struktura_korpusu|Struktura korpusu]] | + | V rámci |
+ | |||
+ | ^ konkordance | ||
+ | ^ pozice | ||
+ | ^ pozice (starší notace) | ||
+ | |||
+ | V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky //L// (pro levý kontext) a //R// (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, | ||
+ | |||
+ | ^ konkordance | ||
+ | ^ pozice (počítáno zleva) | 6L | 5L | 4L | 3L | 2L | 1L | <fc # | ||
+ | ^ totéž (starší notace) | -6 | -5 | -4 | -3 | -2 | -1 | <fc # | ||
+ | ^ pozice (počítáno zprava) | 8L | 7L | 6L | 5L | 4L | 3L | <fc # | ||
+ | ^ totéž (starší notace | -8 | -7 | -6 | -5 | -4 | -3 | <fc # | ||
+ | |||
+ | V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava. | ||
+ | |||
+ | ==== Související odkazy ==== | ||
- | [[pojmy: | + | <WRAP round box 49%> |
+ | [[pojmy: | ||
+ | </ |