Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| seznamy:mwe [2025/12/22 06:58] – krivan | seznamy:mwe [2026/01/23 12:00] (aktuální) – [Značkování víceslovných lexikálních jednotek] krivan | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| ====== Značkování víceslovných lexikálních jednotek ====== | ====== Značkování víceslovných lexikálních jednotek ====== | ||
| - | Počínaje | + | Počínaje korpusem [[cnk: |
| + | |||
| + | <WRAP round important 70%> | ||
| + | Automatické značkování VLJ nese některé **nedostatky**. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že některé výrazy nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). | ||
| + | </ | ||
| Pro značkování používáme dva atributy: **mwe_lemma** a **mwe_tag**. | Pro značkování používáme dva atributy: **mwe_lemma** a **mwe_tag**. | ||
| - | **mwe_lemma** (multi-word expression lemma): [[pojmy: | + | ===== Atribut |
| - | **mwe_tag** (multi-word expression tag): poziční [[pojmy: | + | **mwe_lemma** (multi-word expression lemma): [[pojmy: |
| - | Pozice 4-9 zůstávají zatím nevyužité (_), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované. Poslední, desátá pozice | + | |
| + | ===== Atribut mwe_tag ===== | ||
| + | |||
| + | **mwe_tag** (multi-word expression tag): poziční [[pojmy: | ||
| + | |||
| + | ==== 1. pozice ==== | ||
| + | |||
| + | Na první pozici označujeme typ užití VLJ (např. přísloví, | ||
| ^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ | ^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ | ||
| - | | c | citace | důvěřuj, | + | | **c** | citace | důvěřuj, |
| - | | f | cizojazyčné spojení | comme_il_faut | | + | | **f** | cizojazyčné spojení | comme_il_faut | |
| - | | j | větný frazém: jiný než přísloví, | + | | **g** | zeměpisný název | České_Budějovice | |
| - | | k | přirovnání | jako_malý_kluk | | + | | **j** | větný frazém: jiný než přísloví, |
| - | | l | kolokace | hrát_roli | | + | | **k** | přirovnání | jako_malý_kluk | |
| - | | n | neslovesný frazém | s_odřenýma_ušima | | + | | **l** | kolokace | hrát_roli | |
| - | | o | otevřený frazém | ještě_štěstí, | + | | **n** | neslovesný frazém | s_odřenýma_ušima | |
| - | | p | přísloví | dvakrát_měř, | + | | **o** | otevřený frazém | ještě_štěstí, |
| - | | q | kvazifrazém | dávat_smysl | | + | | **p** | přísloví | dvakrát_měř, |
| - | | r | pranostika | únor_bílý_pole_sílí | | + | | **q** | kvazifrazém | dávat_smysl | |
| - | | s | víceslovné synsémantikum | | | + | | **r** | pranostika | únor_bílý_pole_sílí | |
| - | | t | termín | umělá_inteligence | | + | | **s** | víceslovné synsémantikum | v_souvislosti_s |
| - | | v | slovesný frazém | | | + | | **t** | termín | umělá_inteligence | |
| + | | **v** | slovesný frazém | vidět_na_vlastní_oči | ||
| + | |||
| + | ==== 2. pozice ==== | ||
| + | |||
| + | Druhá pozice rozlišuje syntaktický typ dané VLJ (např. jmenná fráze, klauze, souvětí). Přesněji jde o syntaktický typ konkrétního dokladu dané VLJ, např. pod mwe_lemmatem '' | ||
| ^ 2. pozice ^ význam ^ příklad víceslovného lemmatu ^ | ^ 2. pozice ^ význam ^ příklad víceslovného lemmatu ^ | ||
| - | | a | adjektivní fráze | | | + | | **a** | adjektivní fráze | na_hony_vzdálený |
| - | | c | složená spojka | | | + | | **c** | složená spojka | i_kdyby \\ jednak_, |
| - | | d | adverbiální fráze | | | + | | **d** | adverbiální fráze | zas_a_znova \\ co_nejdříve |
| - | | i | složené citoslovce | | | + | | **i** | složené citoslovce | ach_bože \\ čerta_starýho |
| - | | j | jiný | | | + | | **j** | jiný | in_memoriam \\ nebo_co |
| - | | k | klauze | | | + | | **k** | klauze | co_se_něčeho_týká \\ nedá_se_nic_dělat |
| - | | l | slovesná fráze s kategoriálním/ | + | | **l** | slovesná fráze s kategoriálním/ |
| - | | n | jmenná fráze | | | + | | **n** | jmenná fráze | trestná_minuta \\ moučkový_cukr |
| - | | p | složená předložka | | | + | | **p** | složená předložka | na_základě \\ v_souvislosti_s |
| - | | r | předložková fráze | | | + | | **r** | předložková fráze | v_podstatě \\ mimo_jiné |
| - | | s | souvětí | | | + | | **s** | souvětí | ať_se_děje, |
| - | | v | slovesná fráze plnovýznamová | | | + | | **v** | slovesná fráze plnovýznamová | lapat_po_dechu |
| + | |||
| + | ==== 3. pozice ==== | ||
| + | |||
| + | Je-li označená VLJ výsledkem syntaktické transformace (např. pasivizace či nominalizace) základní varianty VLJ, označujeme to na třetí pozici. | ||
| ^ 3. pozice ^ význam ^ přiklad dokladu (souvisejícího víceslovného lemmatu) | | ^ 3. pozice ^ význam ^ přiklad dokladu (souvisejícího víceslovného lemmatu) | | ||
| - | | P | pasivum | je kladen důraz (klást_důraz) | | + | | **P** | pasivum | je kladen důraz (klást_důraz) | |
| - | | R | reflexivní pasivum | pozornost se soustředí (soustředit_pozornost) | | + | | **R** | reflexivní pasivum | pozornost se soustředí (soustředit_pozornost) | |
| - | | N | verbální substantivum na -ní, -tí | spáchání trestného činu (spáchat_trestný_čin) | | + | | **N** | verbální substantivum na -ní, -tí | spáchání trestného činu (spáchat_trestný_čin) | |
| - | | O | verbální substantivum na -ost | použitelnost metody (použít_metodu) | | + | | **O** | verbální substantivum na -ost | použitelnost metody (použít_metodu) | |
| - | | A | verbální adjektivum odvozené od tvaru trpného příčestí | stanovený cíl (stanovit_cíl) | | + | | **A** | verbální adjektivum odvozené od tvaru trpného příčestí | stanovený cíl (stanovit_cíl) | |
| - | | G | verbální adjektivum odvozené od tvaru přítomného přechodníku | zhoršující se situace (zhoršit_situaci) | | + | | **G** | verbální adjektivum odvozené od tvaru přítomného přechodníku | zhoršující se situace (zhoršit_situaci) | |
| - | | S | verbální adjektivum odvozené od tvaru minulého přechodníku | položivší základy (položit_základ) | | + | | **S** | verbální adjektivum odvozené od tvaru minulého přechodníku | položivší základy (položit_základ) | |
| - | | L | verbální adjektivum odvozené od tvaru minulého aktivního příčestí | jsme na sebe zvyklí (zvyknout_si_na_sebe) | | + | | **L** | verbální adjektivum odvozené od tvaru minulého aktivního příčestí | jsme na sebe zvyklí (zvyknout_si_na_sebe) | |
| - | | T | verbální adjektivum zakončené na -telný/ | + | | **T** | verbální adjektivum zakončené na -telný/ |
| + | |||
| + | ==== Další pozice ==== | ||
| + | |||
| + | Pozice 4-9 zůstávají zatím nevyužité (hodnota **_**), protože dané vlastnosti VLJ nejsou v databázi LEMUR dostatečně spolehlivě anotované. | ||
| + | Poslední, **10. pozice** | ||