AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:pozice [2013/09/13 15:11] – Schvaleno pro 1. verzi vaclavcvrcekpojmy:pozice [2021/01/16 21:45] (aktuální) – [Textová pozice] jankrivan
Řádek 10: Řádek 10:
 a obsahuje tak 6 samostatných pozic. a obsahuje tak 6 samostatných pozic.
  
-V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako ''např.'', ''apod.'', ''ekonomicko-sociologický'',  jednou pozicí, v jiných korpusech jsou to pozice dvě. +V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako ''např.'', ''apod.'', ''Rakousko-Uhersko'',  jednou pozicí, v jiných korpusech jsou rozdělena na více pozic (dvě pozice v případě ''např .'', ''apod .'', tři pozice v případě ''Rakousko - Uhersko''). Tokenizace numerických a interpunkčních znaků je podrobně popsána na příkladu korpusu SYN2020 [[cnk:syn2020:tokenizace|na této stránce]]. 
 + 
 +===== Pozice v konkordanci ===== 
 + 
 +V rámci [[pojmy:konkordance|konkordance]] jsou pozice číslovány relativně k hledanému slovu ([[pojmy:kwic|KWIC]]).  Číslování pozic v rámci jednoho konkordančního řádku lemmatu //dřevo// shrnuje následující tabulka: 
 + 
 +^ konkordance  | místnosti | . | Byly | z | těžkého | tmavého |  **<fc #FF0000>dřeva</fc>**  | a | zlověstně | zaskřípaly | . | Poslepu | jsem | 
 +^ pozice  |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  |  5R  |  6R  | 
 +^ pozice (starší notace)  |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  |  5  |  6  | 
 + 
 +V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky //L// (pro levý kontext) a //R// (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou): 
 + 
 +^ konkordance  | znečišťování | ovzduší | . | Moderní | kotle | na |  **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>**  | splňují | dnes | všechny | požadavky | z | hlediska |  
 +^ pozice (počítáno zleva) |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1R</fc>  |  <fc #FF0000>2R</fc>  |  3R  |  4R  |  5R  |  6R  | 7R | 8R | 
 +^ totéž (starší notace) |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1</fc>  |  <fc #FF0000>2</fc>  |  3  |  4  |  5  |  6  | 7 | 8 | 
 +^ pozice (počítáno zprava) |  8L  |  7L  |  6L  |  5L  |  4L  |  3L  |  <fc #FF0000>2L</fc>  |  <fc #FF0000>1L</fc>  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  | 5R | 6R | 
 +^ totéž (starší notace |  -8  |  -7  |  -6  |  -5  |  -4  |  -3  |  <fc #FF0000>-2</fc>  |  <fc #FF0000>-1</fc>  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  | 5 | 6 | 
 + 
 +V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava.
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 50%>+<WRAP round box 49%>
 [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:token|Token]] • [[pojmy:typ|Typ/Type]] [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:token|Token]] • [[pojmy:typ|Typ/Type]]
 </WRAP> </WRAP>