Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:pozice [2013/06/20 14:03] – vytvořeno Václav Cvrček
+++ pojmy:pozice [2021/01/16 21:45] (aktuální) – [Textová pozice] Jan Křivan
@@ Řádek 1: / Řádek 1: @@
 ====== Textová pozice ======
-V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy:token|tokenizace]], se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.
+V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem [[pojmy:token|tokenizace]], se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o **pozicích**. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka.
-Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes příjde?// je tokenizována následujícím způsobem:
+Typicky je pozicí jedno grafické slovo (odděleno z obou stran mezerou). Samostatnou pozici ovšem většinou tvoří i interpunkční značky, které při sazbě často bezprostředně sousedí se slovem. Takže např. věta //Hádej, kdo dnes přijde?// je tokenizována následujícím způsobem:
 | 1 | 2 | 3 | 4 | 5 | 6 |
@@ Řádek 10: / Řádek 10: @@
 a obsahuje tak 6 samostatných pozic.
-V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy je proto ''např.'' jednou pozicí, v jiných korpusech jsou to pozice dvě.
+V různých korpusech se také může lišit přístup k slovům spojeným a zkratkám. Někdy jsou proto slova jako ''např.'', ''apod.'', ''Rakousko-Uhersko'',  jednou pozicí, v jiných korpusech jsou rozdělena na více pozic (dvě pozice v případě ''např .'', ''apod .'', tři pozice v případě ''Rakousko - Uhersko''). Tokenizace numerických a interpunkčních znaků je podrobně popsána na příkladu korpusu SYN2020 [[cnk:syn2020:tokenizace|na této stránce]].
+===== Pozice v konkordanci =====
+V rámci [[pojmy:konkordance|konkordance]] jsou pozice číslovány relativně k hledanému slovu ([[pojmy:kwic|KWIC]]).  Číslování pozic v rámci jednoho konkordančního řádku lemmatu //dřevo// shrnuje následující tabulka:
+^ konkordance  | místnosti | . | Byly | z | těžkého | tmavého	|  **<fc #FF0000>dřeva</fc>**  | a | zlověstně | zaskřípaly | . | Poslepu | jsem |
+^ pozice  |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  |  5R  |  6R  |
+^ pozice (starší notace)  |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  |  5  |  6  |
+V korpusových vyhledávačích se běžně pracuje s dvojí notací. Jedna (starší notace) specifikuje levé kontextové pozice zápornými čísly, zatímco pravé pozice (následující po KWICu) čísly kladnými. Novější notace pozic využívá zkratky //L// (pro levý kontext) a //R// (pro pravý kontext); pozice 3R tedy znamená třetí pozici vpravo od klíčového slova. S určováním čísla pozic může nastat problém v případě, že hledaný KWIC je víceslovný (např. při hledání fráze //dřevo a uhlí//). Pak je třeba specifikovat, kterou hranici KWICu považujeme za výchozí pro výpočet (zda pravou nebo levou):
+^ konkordance  | znečišťování | ovzduší | . | Moderní | kotle | na |  **<fc #FF0000>dřevo</fc>** | **<fc #FF0000>a</fc>** | **<fc #FF0000>uhlí</fc>**  | splňují | dnes | všechny | požadavky | z | hlediska |
+^ pozice (počítáno zleva) |  6L  |  5L  |  4L  |  3L  |  2L  |  1L  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1R</fc>  |  <fc #FF0000>2R</fc>  |  3R  |  4R  |  5R  |  6R  | 7R | 8R |
+^ totéž (starší notace) |  -6  |  -5  |  -4  |  -3  |  -2  |  -1  |  <fc #FF0000>KWIC</fc>  |  <fc #FF0000>1</fc>  |  <fc #FF0000>2</fc>  |  3  |  4  |  5  |  6  | 7 | 8 |
+^ pozice (počítáno zprava) |  8L  |  7L  |  6L  |  5L  |  4L  |  3L  |  <fc #FF0000>2L</fc>  |  <fc #FF0000>1L</fc>  |  <fc #FF0000>KWIC</fc>  |  1R  |  2R  |  3R  |  4R  | 5R | 6R |
+^ totéž (starší notace |  -8  |  -7  |  -6  |  -5  |  -4  |  -3  |  <fc #FF0000>-2</fc>  |  <fc #FF0000>-1</fc>  |  <fc #FF0000>KWIC</fc>  |  1  |  2  |  3  |  4  | 5 | 6 |
+V případě, že je třeba specifikovat KWIC jako pozici, používá se 0. Chceme-li naznačit, který okraj víceslovného KWICu považujeme za rozhodný, můžeme použít notaci <0 pro počítání zleva a 0> pro počítání zprava.
+==== Související odkazy ====
+<WRAP round box 49%>
+[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:token|Token]] • [[pojmy:typ|Typ/Type]]
+</WRAP>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence