Toto je starší verze dokumentu!
Obsah
Značkování víceslovných lexikálních jednotek
Počínaje korpusem SYN2025 a korpusem SYNv14 označujeme v korpusech víceslovné lexikální jednotky (VLJ) novým značením propojeným s databází VLJ LEMUR (Lexicon of Multiword Expressions). Toto značkování je zatím spuštěno v pilotní verzi a navazuje na dosavadní značkování frazémů nástrojem FRANTA.
Automatické značkování VLJ nese některé nedostatky. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že některé výrazy nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).
Pro značkování používáme dva atributy: mwe_lemma a mwe_tag.
Atribut mwe_lemma
mwe_lemma (multi-word expression lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu mwe_lemma je tak např. bít_se_jako_lev. Heslo může zahrnovat více lexikálních variant téže VLJ, např. mwe_lemma bít_se_jako_lev zahrnuje varianty bít se jako lev, rvát se jako lev a bránit se jako lev.
Atribut mwe_tag
mwe_tag (multi-word expression tag): poziční tag víceslovné jednotky s deseti pozicemi.
1. pozice
Na první pozici označujeme typ užití VLJ (např. přísloví, citace, slovesný frazém).
| 1. pozice | význam | příklad víceslovného lemmatu |
|---|---|---|
| c | citace | důvěřuj,_ale_prověřuj |
| f | cizojazyčné spojení | comme_il_faut |
| j | větný frazém: jiný než přísloví, pranostiky | nemůžu_si_pomoct |
| k | přirovnání | jako_malý_kluk |
| l | kolokace | hrát_roli |
| n | neslovesný frazém | s_odřenýma_ušima |
| o | otevřený frazém | ještě_štěstí,_že |
| p | přísloví | dvakrát_měř,_jednou_řež |
| q | kvazifrazém | dávat_smysl |
| r | pranostika | únor_bílý_pole_sílí |
| s | víceslovné synsémantikum | v_souvislosti_s |
| t | termín | umělá_inteligence |
| v | slovesný frazém | vidět_na_vlastní_oči |
2. pozice
Druhá pozice rozlišuje syntaktický typ dané VLJ (např. jmenná fráze, klauze, souvětí), přesněji: daného dokladu VLJ, např. pod MWE lemmatem vytřeštit_oči (typ v) jsou obsaženy i doklady vytřeštěné oči a třeštící oči (typ a).
| 2. pozice | význam | příklad víceslovného lemmatu |
|---|---|---|
| a | adjektivní fráze | na_hony_vzdálený |
| c | složená spojka | i_kdyby jednak_,_jednak |
| d | adverbiální fráze | zas_a_znova co_nejdříve |
| i | složené citoslovce | ach_bože čerta_starýho |
| j | jiný | in_memoriam nebo_co |
| k | klauze | co_se_něčeho_týká nedá_se_nic_dělat |
| l | slovesná fráze s kategoriálním/lehkým slovesem | položit_otázku mít_obavu |
| n | jmenná fráze | trestná_minuta moučkový_cukr |
| p | složená předložka | na_základě v_souvislosti_s |
| r | předložková fráze | v_podstatě mimo_jiné |
| s | souvětí | ať_se_děje,_co_se_děje |
| v | slovesná fráze plnovýznamová | lapat_po_dechu |
3. pozice
Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici.
| 3. pozice | význam | přiklad dokladu (souvisejícího víceslovného lemmatu) |
|---|---|---|
| P | pasivum | je kladen důraz (klást_důraz) |
| R | reflexivní pasivum | pozornost se soustředí (soustředit_pozornost) |
| N | verbální substantivum na -ní, -tí | spáchání trestného činu (spáchat_trestný_čin) |
| O | verbální substantivum na -ost | použitelnost metody (použít_metodu) |
| A | verbální adjektivum odvozené od tvaru trpného příčestí | stanovený cíl (stanovit_cíl) |
| G | verbální adjektivum odvozené od tvaru přítomného přechodníku | zhoršující se situace (zhoršit_situaci) |
| S | verbální adjektivum odvozené od tvaru minulého přechodníku | položivší základy (položit_základ) |
| L | verbální adjektivum odvozené od tvaru minulého aktivního příčestí | jsme na sebe zvyklí (zvyknout_si_na_sebe) |
| T | verbální adjektivum zakončené na -telný/-itelný | viditelný pouhým okem (vidět_pouhým_okem) |
Další pozice
Pozice 4-9 zůstávají zatím nevyužité (_), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované.
Poslední, desátá pozice je spíše technického rázu, právě jeden token z víceslovného výrazu je označen „C“, aby bylo možné při počítání frekvencí počítat každou VLJ jen jednou, ne podle počtu jejích tokenů.