Toto je starší verze dokumentu!
Značkování víceslovných lexikálních jednotek
Počínaje korpusem SYN2025 a korpusem SYNv14 označujeme v korpusech víceslovné lexikální jednotky (VLJ) značením propojeným s databází VLJ LEMUR (Lexicon of Multiword Expressions). Toto značkování je zatím spuštěno v pilotní verzi a navazuje na dosavadní značkování frazémů nástrojem FRANTA.
Automatická identifikace frazémů nese některé nedostatky. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).
Pro značkování používáme dva atributy: mwe_lemma a mwe_tag.
mwe_lemma (multi-word expression lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu mwe_lemma, heslo může zahrnovat více lexikálních variant téže VLJ.
mwe_tag (multi-word expression tag): poziční tag víceslovné jednotky s deseti pozicemi. Na první pozici označujeme typ užití VLJ (např. přísloví, citace, slovesný frazém). Druhá pozice rozlišuje syntaktický typ VLJ (např. jmenná fráze, klauze, souvětí). Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici. Pozice 4-9 zůstávají zatím nevyužité (_), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované. Poslední, desátá pozice je spíše technického rázu, právě jeden token z víceslovného výrazu je označen „C“, aby bylo možné při počítání frekvencí počítat každou VLJ jen jednou, ne podle počtu jejích tokenů.
| 1. pozice | význam | příklad víceslovného lemmatu |
|---|---|---|
| c | citace | důvěřuj,_ale_prověřuj |
| f | cizojazyčné spojení | comme_il_faut |
| j | větný frazém: jiný než přísloví, pranostiky | nemůžu_si_pomoct |
| k | přirovnání | jako_malý_kluk |
| l | kolokace | hrát_roli |
| n | neslovesný frazém | s_odřenýma_ušima |
| o | otevřený frazém | ještě_štěstí,_že |
| p | přísloví | dvakrát_měř,_jednou_řež |
| q | kvazifrazém | dávat_smysl |
| r | pranostika | únor_bílý_pole_sílí |
| s | víceslovné synsémantikum | v_souvislosti_s |
| t | termín | umělá_inteligence |
| v | slovesný frazém | vidět_na_vlastní_oči |
| 2. pozice | význam | příklad víceslovného lemmatu |
|---|---|---|
| a | adjektivní fráze | na_hony_vzdálený |
| c | složená spojka | i_kdyby jednak_,_jednak |
| d | adverbiální fráze | zas_a_znova co_nejdříve |
| i | složené citoslovce | ach_bože čerta_starýho |
| j | jiný | in_memoriam nebo_co |
| k | klauze | co_se_něčeho_týká nedá_se_nic_dělat |
| l | slovesná fráze s kategoriálním/lehkým slovesem | položit_otázku mít_obavu |
| n | jmenná fráze | trestná_minuta moučkový_cukr |
| p | složená předložka | na_základě v_souvislosti_s |
| r | předložková fráze | v_podstatě mimo_jiné |
| s | souvětí | ať_se_děje,_co_se_děje |
| v | slovesná fráze plnovýznamová | lapat_po_dechu |
| 3. pozice | význam | přiklad dokladu (souvisejícího víceslovného lemmatu) |
|---|---|---|
| P | pasivum | je kladen důraz (klást_důraz) |
| R | reflexivní pasivum | pozornost se soustředí (soustředit_pozornost) |
| N | verbální substantivum na -ní, -tí | spáchání trestného činu (spáchat_trestný_čin) |
| O | verbální substantivum na -ost | použitelnost metody (použít_metodu) |
| A | verbální adjektivum odvozené od tvaru trpného příčestí | stanovený cíl (stanovit_cíl) |
| G | verbální adjektivum odvozené od tvaru přítomného přechodníku | zhoršující se situace (zhoršit_situaci) |
| S | verbální adjektivum odvozené od tvaru minulého přechodníku | položivší základy (položit_základ) |
| L | verbální adjektivum odvozené od tvaru minulého aktivního příčestí | jsme na sebe zvyklí (zvyknout_si_na_sebe) |
| T | verbální adjektivum zakončené na -telný/-itelný | viditelný pouhým okem (vidět_pouhým_okem) |