AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
pojmy:pozice [2013/06/20 14:03]
Václav Cvrček vytvořeno
pojmy:pozice [2021/01/16 21:45] (aktuální)
Jan Křivan [Textová pozice]
Řádek 1: Řádek 1:
 ====== Textová pozice ====== ====== Textová pozice ======
  
-V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy:token|tokenizace]], se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.+V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy:token|tokenizace]], se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o **pozicích**. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.
  
-Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes příjde?// je tokenizována následujícím způsobem:+Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes přijde?// je tokenizována následujícím způsobem:
  
 | 1 | 2 | 3 | 4 | 5 | 6 | | 1 | 2 | 3 | 4 | 5 | 6 |
Řádek 10: Řádek 10:
 a obsahuje tak 6 samostatných pozic. a obsahuje tak 6 samostatných pozic.
  
-V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy je proto ''např.'' jednou pozicí, v jiných korpusech jsou to pozice dvě. +V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako ''např.'', ''apod.'', ''Rakousko-Uhersko'',  jednou pozicí, v jiných korpusech jsou rozdělena na více pozic (dvě pozice v případě ''např .'', ''apod .'', tři pozice v případě ''Rakousko - Uhersko''). Tokenizace numerických a interpunkčních znaků je podrobně popsána na příkladu korpusu SYN2020 [[cnk:syn2020:tokenizace|na této stránce]].
  
 +===== Pozice v konkordanci =====
 +
 +V rámci [[pojmy:konkordance|konkordance]] jsou pozice číslovány relativně k hledanému slovu ([[pojmy:kwic|KWIC]]).  Číslování pozic v rámci jednoho konkordančního řádku lemmatu //dřevo// shrnuje následující tabulka:
 +
 +^ konkordance  | místnosti | . | Byly | z | těžkého | tmavého |  **<fc #FF0000>dřeva</fc>**  | a | zlověstně | zaskřípaly | . | Poslepu | jsem |
 +^ pozice  |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  |  5R  |  6R  |
 +^ pozice (starší notace)  |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  |  5  |  6  |
 +
 +V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky //L// (pro levý kontext) a //R// (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou):
 +
 +^ konkordance  | znečišťování | ovzduší | . | Moderní | kotle | na |  **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>**  | splňují | dnes | všechny | požadavky | z | hlediska | 
 +^ pozice (počítáno zleva) |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1R</fc>  |  <fc #FF0000>2R</fc>  |  3R  |  4R  |  5R  |  6R  | 7R | 8R |
 +^ totéž (starší notace) |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1</fc>  |  <fc #FF0000>2</fc>  |  3  |  4  |  5  |  6  | 7 | 8 |
 +^ pozice (počítáno zprava) |  8L  |  7L  |  6L  |  5L  |  4L  |  3L  |  <fc #FF0000>2L</fc>  |  <fc #FF0000>1L</fc>  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  | 5R | 6R |
 +^ totéž (starší notace |  -8  |  -7  |  -6  |  -5  |  -4  |  -3  |  <fc #FF0000>-2</fc>  |  <fc #FF0000>-1</fc>  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  | 5 | 6 |
 +
 +V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava.
 +
 +==== Související odkazy ====
 +
 +<WRAP round box 49%>
 +[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:token|Token]] • [[pojmy:typ|Typ/Type]]
 +</WRAP>