AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Značkování víceslovných lexikálních jednotek

Počínaje korpusem SYN2025 a korpusem SYNv14 označujeme v korpusech víceslovné lexikální jednotky (VLJ) novým značením propojeným s databází VLJ LEMUR (Lexicon of Multiword Expressions). Toto značkování je zatím spuštěno v pilotní verzi a navazuje na dosavadní značkování frazémů nástrojem FRANTA.

Automatické značkování VLJ nese některé nedostatky. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že některé výrazy nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).

Pro značkování používáme dva atributy: mwe_lemma a mwe_tag.

Atribut mwe_lemma

mwe_lemma (multi-word expression lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu mwe_lemma je tak např. bít_se_jako_lev. Heslo může zahrnovat více lexikálních variant téže VLJ, např. mwe_lemma bít_se_jako_lev zahrnuje varianty bít se jako lev, rvát se jako lev a bránit se jako lev.

Atribut mwe_tag

mwe_tag (multi-word expression tag): poziční tag víceslovné jednotky s deseti pozicemi.

1. pozice

Na první pozici označujeme typ užití VLJ (např. přísloví, citace, slovesný frazém).

1. pozice význam příklad víceslovného lemmatu
c citace důvěřuj,_ale_prověřuj
f cizojazyčné spojení comme_il_faut
j větný frazém: jiný než přísloví, pranostiky nemůžu_si_pomoct
k přirovnání jako_malý_kluk
l kolokace hrát_roli
n neslovesný frazém s_odřenýma_ušima
o otevřený frazém ještě_štěstí,_že
p přísloví dvakrát_měř,_jednou_řež
q kvazifrazém dávat_smysl
r pranostika únor_bílý_pole_sílí
s víceslovné synsémantikum v_souvislosti_s
t termín umělá_inteligence
v slovesný frazém vidět_na_vlastní_oči

2. pozice

Druhá pozice rozlišuje syntaktický typ dané VLJ (např. jmenná fráze, klauze, souvětí). Přesněji jde o syntaktický typ konkrétního dokladu dané VLJ, např. pod mwe_lemmatem vytřeštit_oči (typ v) jsou obsaženy i doklady vytřeštěné oči a třeštící oči (typ a).

2. pozice význam příklad víceslovného lemmatu
a adjektivní fráze na_hony_vzdálený
c složená spojka i_kdyby
jednak_,_jednak
d adverbiální fráze zas_a_znova
co_nejdříve
i složené citoslovce ach_bože
čerta_starýho
j jiný in_memoriam
nebo_co
k klauze co_se_něčeho_týká
nedá_se_nic_dělat
l slovesná fráze s kategoriálním/lehkým slovesem položit_otázku
mít_obavu
n jmenná fráze trestná_minuta
moučkový_cukr
p složená předložka na_základě
v_souvislosti_s
r předložková fráze v_podstatě
mimo_jiné
s souvětí ať_se_děje,_co_se_děje
v slovesná fráze plnovýznamová lapat_po_dechu

3. pozice

Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici.

3. pozice význam přiklad dokladu (souvisejícího víceslovného lemmatu)
P pasivum je kladen důraz (klást_důraz)
R reflexivní pasivum pozornost se soustředí (soustředit_pozornost)
N verbální substantivum na -ní, -tí spáchání trestného činu (spáchat_trestný_čin)
O verbální substantivum na -ost použitelnost metody (použít_metodu)
A verbální adjektivum odvozené od tvaru trpného příčestí stanovený cíl (stanovit_cíl)
G verbální adjektivum odvozené od tvaru přítomného přechodníku zhoršující se situace (zhoršit_situaci)
S verbální adjektivum odvozené od tvaru minulého přechodníku položivší základy (položit_základ)
L verbální adjektivum odvozené od tvaru minulého aktivního příčestí jsme na sebe zvyklí (zvyknout_si_na_sebe)
T verbální adjektivum zakončené na -telný/-itelný viditelný pouhým okem (vidět_pouhým_okem)

Další pozice

Pozice 4-9 zůstávají zatím nevyužité (hodnota _), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované.

Poslední, 10. pozice je spíše technického rázu, právě jeden token z víceslovného výrazu je označen C, aby bylo možné při počítání frekvencí počítat každou VLJ jen jednou, ne podle počtu jejích tokenů.