AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Značkování víceslovných lexikálních jednotek

Počínaje korpusem SYN2025 a korpusem SYNv14 označujeme v korpusech víceslovné lexikální jednotky (VLJ) značením propojeným s databází VLJ LEMUR (Lexicon of Multiword Expressions). Toto značkování navazuje na pilotní verzi značkování frazémů nástrojem FRANTA.

Pro značkování používáme dva atributy: mwe_lemma a mwe_tag.

mwe_lemma (multi-word expression lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu mwe_lemma, heslo může zahrnovat více lexikálních variant téže VLJ.

mwe_tag (multi-word expression tag): poziční tag víceslovné jednotky s deseti pozicemi. Na první pozici označujeme typ užití VLJ (např. přísloví, citace, slovesný frazém). Druhá pozice rozlišuje syntaktický typ VLJ (např. jmenná fráze, klauze, souvětí). Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici. Pozice 4-9 zůstávají zatím nevyužité (_), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované. Poslední, desátá pozice je spíše technického rázu, právě jeden token z víceslovného výrazu je označen „C“, aby bylo možné při počítání frekvencí počítat každou VLJ jen jednou, ne podle počtu jejích tokenů.

1. pozice význam příklad víceslovného lemmatu
c citace důvěřuj,_ale_prověřuj
f cizojazyčné spojení comme_il_faut
j větný frazém: jiný než přísloví, pranostiky nemůžu_si_pomoct
k přirovnání jako_malý_kluk
l kolokace hrát_roli
n neslovesný frazém s_odřenýma_ušima
o otevřený frazém ještě_štěstí,_že
p přísloví dvakrát_měř,_jednou_řež
q kvazifrazém dávat_smysl
r pranostika únor_bílý_pole_sílí
s víceslovné synsémantikum v_souvislosti_s
t termín umělá_inteligence
v slovesný frazém vidět_na_vlastní_oči
2. pozice význam příklad víceslovného lemmatu
a adjektivní fráze na_hony_vzdálený
c složená spojka i_kdyby
jednak_,_jednak
d adverbiální fráze zas_a_znova
co_nejdříve
i složené citoslovce ach_bože
čerta_starýho
j jiný in_memoriam
nebo_co
k klauze co_se_něčeho_týká
nedá_se_nic_dělat
l slovesná fráze s kategoriálním/lehkým slovesem položit_otázku
mít_obavu
n jmenná fráze trestná_minuta
moučkový_cukr
p složená předložka na_základě
v_souvislosti_s
r předložková fráze v_podstatě
mimo_jiné
s souvětí ať_se_děje,_co_se_děje
v slovesná fráze plnovýznamová lapat_po_dechu
3. pozice význam přiklad dokladu (souvisejícího víceslovného lemmatu)
P pasivum je kladen důraz (klást_důraz)
R reflexivní pasivum pozornost se soustředí (soustředit_pozornost)
N verbální substantivum na -ní, -tí spáchání trestného činu (spáchat_trestný_čin)
O verbální substantivum na -ost použitelnost metody (použít_metodu)
A verbální adjektivum odvozené od tvaru trpného příčestí stanovený cíl (stanovit_cíl)
G verbální adjektivum odvozené od tvaru přítomného přechodníku zhoršující se situace (zhoršit_situaci)
S verbální adjektivum odvozené od tvaru minulého přechodníku položivší základy (položit_základ)
L verbální adjektivum odvozené od tvaru minulého aktivního příčestí jsme na sebe zvyklí (zvyknout_si_na_sebe)
T verbální adjektivum zakončené na -telný/-itelný viditelný pouhým okem (vidět_pouhým_okem)