====== Značkování víceslovných lexikálních jednotek ====== Počínaje korpusem [[cnk:syn:verze14|SYNv14]] označujeme v korpusech víceslovné lexikální jednotky (VLJ) novým značením propojeným s [[https://db.korpus.cz/search/_lemur_simple|databází VLJ LEMUR]] (**L**exicon of **Mu**ltiword Exp**r**essions). Toto značkování je zatím spuštěno v pilotní verzi a navazuje na dosavadní [[seznamy:frazemy|značkování frazémů nástrojem FRANTA]]. Automatické značkování VLJ nese některé **nedostatky**. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že některé výrazy nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). Pro značkování používáme dva atributy: **mwe_lemma** a **mwe_tag**. ===== Atribut mwe_lemma ===== **mwe_lemma** (multi-word expression lemma): [[pojmy:lemma|lemma]] víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu **mwe_lemma** je tak např. ''bít_se_jako_lev''. Heslo může zahrnovat více lexikálních variant téže VLJ, např. **mwe_lemma** ''bít_se_jako_lev'' zahrnuje varianty //bít se jako lev//, //rvát se jako lev// a //bránit se jako lev//. ===== Atribut mwe_tag ===== **mwe_tag** (multi-word expression tag): poziční [[pojmy:tag|tag]] víceslovné jednotky s deseti pozicemi. ==== 1. pozice ==== Na první pozici označujeme typ užití VLJ (např. přísloví, citace, slovesný frazém). ^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ | **c** | citace | důvěřuj,_ale_prověřuj | | **f** | cizojazyčné spojení | comme_il_faut | | **g** | zeměpisný název | České_Budějovice | | **j** | větný frazém: jiný než přísloví, pranostiky | nemůžu_si_pomoct | | **k** | přirovnání | jako_malý_kluk | | **l** | kolokace | hrát_roli | | **n** | neslovesný frazém | s_odřenýma_ušima | | **o** | otevřený frazém | ještě_štěstí,_že | | **p** | přísloví | dvakrát_měř,_jednou_řež | | **q** | kvazifrazém | dávat_smysl | | **r** | pranostika | únor_bílý_pole_sílí | | **s** | víceslovné synsémantikum | v_souvislosti_s | | **t** | termín | umělá_inteligence | | **v** | slovesný frazém | vidět_na_vlastní_oči | ==== 2. pozice ==== Druhá pozice rozlišuje syntaktický typ dané VLJ (např. jmenná fráze, klauze, souvětí). Přesněji jde o syntaktický typ konkrétního dokladu dané VLJ, např. pod mwe_lemmatem ''vytřeštit_oči'' (typ **v**) jsou obsaženy i doklady //vytřeštěné oči// a //třeštící oči// (typ **a**). ^ 2. pozice ^ význam ^ příklad víceslovného lemmatu ^ | **a** | adjektivní fráze | na_hony_vzdálený | | **c** | složená spojka | i_kdyby \\ jednak_,_jednak | | **d** | adverbiální fráze | zas_a_znova \\ co_nejdříve | | **i** | složené citoslovce | ach_bože \\ čerta_starýho | | **j** | jiný | in_memoriam \\ nebo_co | | **k** | klauze | co_se_něčeho_týká \\ nedá_se_nic_dělat | | **l** | slovesná fráze s kategoriálním/lehkým slovesem | položit_otázku \\ mít_obavu | | **n** | jmenná fráze | trestná_minuta \\ moučkový_cukr | | **p** | složená předložka | na_základě \\ v_souvislosti_s | | **r** | předložková fráze | v_podstatě \\ mimo_jiné | | **s** | souvětí | ať_se_děje,_co_se_děje | | **v** | slovesná fráze plnovýznamová | lapat_po_dechu | ==== 3. pozice ==== Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici. ^ 3. pozice ^ význam ^ přiklad dokladu (souvisejícího víceslovného lemmatu) | | **P** | pasivum | je kladen důraz (klást_důraz) | | **R** | reflexivní pasivum | pozornost se soustředí (soustředit_pozornost) | | **N** | verbální substantivum na -ní, -tí | spáchání trestného činu (spáchat_trestný_čin) | | **O** | verbální substantivum na -ost | použitelnost metody (použít_metodu) | | **A** | verbální adjektivum odvozené od tvaru trpného příčestí | stanovený cíl (stanovit_cíl) | | **G** | verbální adjektivum odvozené od tvaru přítomného přechodníku | zhoršující se situace (zhoršit_situaci) | | **S** | verbální adjektivum odvozené od tvaru minulého přechodníku | položivší základy (položit_základ) | | **L** | verbální adjektivum odvozené od tvaru minulého aktivního příčestí | jsme na sebe zvyklí (zvyknout_si_na_sebe) | | **T** | verbální adjektivum zakončené na -telný/-itelný | viditelný pouhým okem (vidět_pouhým_okem) | ==== Další pozice ==== Pozice 4-9 zůstávají zatím nevyužité (hodnota **_**), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované. Poslední, **10. pozice** je spíše technického rázu, právě jeden token z víceslovného výrazu je označen **C**, aby bylo možné při počítání frekvencí počítat každou VLJ jen jednou, ne podle počtu jejích tokenů.