AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:mwe [2025/12/31 02:25] krivanseznamy:mwe [2026/01/23 12:00] (aktuální) – [Značkování víceslovných lexikálních jednotek] krivan
Řádek 1: Řádek 1:
 ====== Značkování víceslovných lexikálních jednotek ====== ====== Značkování víceslovných lexikálních jednotek ======
  
-Počínaje korpusem [[cnk:syn2025|SYN2025]] a korpusem [[cnk:syn:verze14|SYNv14]] označujeme v korpusech víceslovné lexikální jednotky (VLJ) značením propojeným s databází VLJ LEMUR (**L**exicon of **Mu**ltiword Exp**r**essions). Toto značkování je zatím spuštěno v pilotní verzi a navazuje na dosavadní [[seznamy:frazemy|značkování frazémů nástrojem FRANTA]].+Počínaje korpusem [[cnk:syn:verze14|SYNv14]] označujeme v korpusech víceslovné lexikální jednotky (VLJ) novým značením propojeným s [[https://db.korpus.cz/search/_lemur_simple|databází VLJ LEMUR]] (**L**exicon of **Mu**ltiword Exp**r**essions). Toto značkování je zatím spuštěno v pilotní verzi a navazuje na dosavadní [[seznamy:frazemy|značkování frazémů nástrojem FRANTA]].
  
 <WRAP round important 70%> <WRAP round important 70%>
-Automatická identifikace frazémů nese některé **nedostatky**. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//).+Automatické značkování VLJ nese některé **nedostatky**. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že některé výrazy nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//).
 </WRAP> </WRAP>
  
 Pro značkování používáme dva atributy: **mwe_lemma** a **mwe_tag**. Pro značkování používáme dva atributy: **mwe_lemma** a **mwe_tag**.
  
-**mwe_lemma** (multi-word expression lemma): [[pojmy:lemma|lemma]] víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu ''mwe_lemma'', heslo může zahrnovat více lexikálních variant téže VLJ.+===== Atribut mwe_lemma =====
  
-**mwe_tag** (multi-word expression tag): poziční [[pojmy:tag|tag]] víceslovné jednotky s deseti pozicemi. Na první pozici označujeme typ užití VLJ (např. přísloví, citace, slovesný frazém). Druhá pozice rozlišuje syntaktický typ VLJ (např. jmenná fráze, klauze, souvětí). Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici. +**mwe_lemma** (multi-word expression lemma): [[pojmy:lemma|lemma]] víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu **mwe_lemma** je tak např. ''bít_se_jako_lev''. Heslo může zahrnovat více lexikálních variant téže VLJ, např. **mwe_lemma** ''bít_se_jako_lev'' zahrnuje varianty //bít se jako lev//, //rvát se jako lev// a //bránit se jako lev//. 
-Pozice 4-9 zůstávají zatím nevyužité (_), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované. Poslední, desátá pozice  je spíše technického rázu, právě jeden token z víceslovného výrazu je označen "C", aby bylo možné při počítání frekvencí počítat každou VLJ jen jednou, ne podle počtu jejích tokenů.+ 
 +===== Atribut mwe_tag ===== 
 + 
 +**mwe_tag** (multi-word expression tag): poziční [[pojmy:tag|tag]] víceslovné jednotky s deseti pozicemi.  
 + 
 +==== 1. pozice ==== 
 + 
 +Na první pozici označujeme typ užití VLJ (např. přísloví, citace, slovesný frazém). 
  
 ^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ ^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^
-| c | citace | důvěřuj,_ale_prověřuj | +**c** | citace | důvěřuj,_ale_prověřuj | 
-| f | cizojazyčné spojení | comme_il_faut | +**f** | cizojazyčné spojení | comme_il_faut | 
-| j | větný frazém: jiný než přísloví, pranostiky | nemůžu_si_pomoct | +**g** | zeměpisný název | České_Budějovice | 
-| k | přirovnání | jako_malý_kluk | +| **j** | větný frazém: jiný než přísloví, pranostiky | nemůžu_si_pomoct | 
-| l | kolokace | hrát_roli | +**k** | přirovnání | jako_malý_kluk | 
-| n | neslovesný frazém | s_odřenýma_ušima | +**l** | kolokace | hrát_roli | 
-| o | otevřený frazém | ještě_štěstí,_že | +**n** | neslovesný frazém | s_odřenýma_ušima | 
-| p | přísloví | dvakrát_měř,_jednou_řež | +**o** | otevřený frazém | ještě_štěstí,_že | 
-| q | kvazifrazém | dávat_smysl | +**p** | přísloví | dvakrát_měř,_jednou_řež | 
-| r | pranostika | únor_bílý_pole_sílí | +**q** | kvazifrazém | dávat_smysl | 
-| s | víceslovné synsémantikum | v_souvislosti_s | +**r** | pranostika | únor_bílý_pole_sílí | 
-| t | termín | umělá_inteligence | +**s** | víceslovné synsémantikum | v_souvislosti_s | 
-| v | slovesný frazém | vidět_na_vlastní_oči |+**t** | termín | umělá_inteligence | 
 +**v** | slovesný frazém | vidět_na_vlastní_oči | 
 + 
 +==== 2. pozice ==== 
 + 
 +Druhá pozice rozlišuje syntaktický typ dané VLJ (např. jmenná fráze, klauze, souvětí). Přesněji jde o syntaktický typ konkrétního dokladu dané VLJ, např. pod mwe_lemmatem ''vytřeštit_oči'' (typ **v**) jsou obsaženy i doklady //vytřeštěné oči// a //třeštící oči// (typ **a**).
  
 ^ 2. pozice ^ význam ^ příklad víceslovného lemmatu ^ ^ 2. pozice ^ význam ^ příklad víceslovného lemmatu ^
-| a | adjektivní fráze | na_hony_vzdálený | +**a** | adjektivní fráze | na_hony_vzdálený | 
-| c | složená spojka | i_kdyby \\ jednak_,_jednak | +**c** | složená spojka | i_kdyby \\ jednak_,_jednak | 
-| d | adverbiální fráze | zas_a_znova \\ co_nejdříve | +**d** | adverbiální fráze | zas_a_znova \\ co_nejdříve | 
-| i | složené citoslovce | ach_bože \\ čerta_starýho +**i** | složené citoslovce | ach_bože \\ čerta_starýho 
-| j | jiný | in_memoriam \\ nebo_co | +**j** | jiný | in_memoriam \\ nebo_co | 
-| k | klauze | co_se_něčeho_týká \\ nedá_se_nic_dělat | +**k** | klauze | co_se_něčeho_týká \\ nedá_se_nic_dělat | 
-| l | slovesná fráze s kategoriálním/lehkým slovesem | položit_otázku \\ mít_obavu | +**l** | slovesná fráze s kategoriálním/lehkým slovesem | položit_otázku \\ mít_obavu | 
-| n | jmenná fráze | trestná_minuta \\ moučkový_cukr | +**n** | jmenná fráze | trestná_minuta \\ moučkový_cukr | 
-| p | složená předložka | na_základě \\ v_souvislosti_s | +**p** | složená předložka | na_základě \\ v_souvislosti_s | 
-| r | předložková fráze | v_podstatě \\ mimo_jiné | +**r** | předložková fráze | v_podstatě \\ mimo_jiné | 
-| s | souvětí | ať_se_děje,_co_se_děje | +**s** | souvětí | ať_se_děje,_co_se_děje | 
-| v | slovesná fráze plnovýznamová | lapat_po_dechu |+**v** | slovesná fráze plnovýznamová | lapat_po_dechu | 
 + 
 +==== 3. pozice ==== 
 + 
 +Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici.
  
 ^ 3. pozice ^ význam ^ přiklad dokladu (souvisejícího víceslovného lemmatu) |  ^ 3. pozice ^ význam ^ přiklad dokladu (souvisejícího víceslovného lemmatu) | 
-| P | pasivum | je kladen důraz (klást_důraz) |  +**P** | pasivum | je kladen důraz (klást_důraz) |  
-| R | reflexivní pasivum | pozornost se soustředí (soustředit_pozornost) |  +**R** | reflexivní pasivum | pozornost se soustředí (soustředit_pozornost) |  
-| N | verbální substantivum na -ní, -tí | spáchání trestného činu (spáchat_trestný_čin) |  +**N** | verbální substantivum na -ní, -tí | spáchání trestného činu (spáchat_trestný_čin) |  
-| O | verbální substantivum na -ost | použitelnost metody (použít_metodu) |  +**O** | verbální substantivum na -ost | použitelnost metody (použít_metodu) |  
-| A | verbální adjektivum odvozené od tvaru trpného příčestí | stanovený cíl (stanovit_cíl) |  +**A** | verbální adjektivum odvozené od tvaru trpného příčestí | stanovený cíl (stanovit_cíl) |  
-| G | verbální adjektivum odvozené od tvaru přítomného přechodníku | zhoršující se situace (zhoršit_situaci) |  +**G** | verbální adjektivum odvozené od tvaru přítomného přechodníku | zhoršující se situace (zhoršit_situaci) |  
-| S | verbální adjektivum odvozené od tvaru minulého přechodníku | položivší základy (položit_základ) |  +**S** | verbální adjektivum odvozené od tvaru minulého přechodníku | položivší základy (položit_základ) |  
-| L | verbální adjektivum odvozené od tvaru minulého aktivního příčestí | jsme na sebe zvyklí (zvyknout_si_na_sebe) |  +**L** | verbální adjektivum odvozené od tvaru minulého aktivního příčestí | jsme na sebe zvyklí (zvyknout_si_na_sebe) |  
-| T | verbální adjektivum zakončené na -telný/-itelný | viditelný pouhým okem (vidět_pouhým_okem) | +**T** | verbální adjektivum zakončené na -telný/-itelný | viditelný pouhým okem (vidět_pouhým_okem) |  
 + 
 +==== Další pozice ==== 
 + 
 +Pozice 4-9 zůstávají zatím nevyužité (hodnota **_**), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované.
  
 +Poslední, **10. pozice**  je spíše technického rázu, právě jeden token z víceslovného výrazu je označen **C**, aby bylo možné při počítání frekvencí počítat každou VLJ jen jednou, ne podle počtu jejích tokenů.