Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
seznamy:frazemy [2016/09/15 19:13] – [Automatické vyhledávání frazémů a ustálených kolokací v korpusových datech] michalkren | seznamy:frazemy [2018/08/13 13:48] – [Označení slovního druhu] vaclavcvrcek |
---|
====== Automatické vyhledávání frazémů a ustálených kolokací v korpusových datech ====== | ====== Automatická anotace frazémů a ustálených kolokací ====== |
| |
Jako součást korpusu [[cnk:syn:verze4|SYN verze 4]] byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] v korpusu nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku, který v současné době vychází především ze //[[seznamy:if:frazemy_SCFI|Slovníku české frazeologie a idiomatiky]]// a obsahuje okolo 40 000 položek. | Jako součást korpusu [[cnk:syn:verze4|SYN verze 4]] byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //[[seznamy:if:frazemy_SCFI|Slovníku české frazeologie a idiomatiky]]// a obsahuje okolo 40 000 položek. |
| |
Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní: | Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní: |
* umožňuje změny slovosledu. | * umožňuje změny slovosledu. |
| |
Kromě prostého označování víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové [[pojmy:desambiguace|disambiguace]], které napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí jí rozpoznaných víceslovných jednotek. | Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové [[pojmy:desambiguace|disambiguace]], při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek. |
| |
====== Označení automaticky identifikovaných víceslovných jednotek v korpusu ====== | <WRAP round important 70%> |
| Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky**. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). |
| </WRAP> |
| |
Automaticky nalezené víceslovné jednotky jsou v rozhraní [[manualy:kontext:index|KonText]] označeny pomocí dvou [[pojmy:atributy_pozicni|pozičních atributů]]:((U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů **col_lemma** a **col_type** prázdné.)) | |
| |
**col_lemma** (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, ''col_lemma'' může také obsahovat [[seznamy:if:col_lemma|zástupná slova]]; | ===== Označení automaticky identifikovaných víceslovných jednotek v korpusu ===== |
| |
| Automaticky nalezené víceslovné jednotky jsou v rozhraní [[manualy:kontext:index|KonText]] označeny pomocí dvou [[pojmy:atributy_pozicni|pozičních atributů]]:((U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů ''col_lemma'' a ''col_type'' prázdné.)) |
| |
| **col_lemma** (collocation lemma): [[pojmy:lemma|lemma]] víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu ''col_lemma'' může -- v případech velké variability např. u přirovnání -- obsahovat také alternativy, zástupná slova či symboly: |
| |
| * alternativy, např. ''někomu_došla/dojde_trpělivost'' |
| * zástupná slova //něco//, //nějaký//, //dělat// atd., např. ''v_nějakém_slova_smyslu'' zahrnuje mj. //v pravém/dobrém/jistém slova smyslu// |
| * symbol pro označení [[seznamy:tagy#pozice_1_-_slovni_druh|slovního druhu]], např. ''A_jako_kámen'' zahrnuje mj. //pevný/nehybný/tuhý jako kámen// |
| |
**col_type** (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (''H'') a závislého (''Z'') slova v ní. Část slovního spojení označená jako hlavní (''H'') nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako ''H'' je totiž označena vždy právě jedna [[pojmy:pozice|pozice]] slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako ''Z'' (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] na atribut ''col_type'' s dodatečným filtrem podle [[pojmy:regularni_vyrazy|regulárního výrazu]] ''.H'' a typem výstupu zadaným jako atribut ''col_lemma''. | **col_type** (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (''H'') a závislého (''Z'') slova v ní. Část slovního spojení označená jako hlavní (''H'') nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako ''H'' je totiž označena vždy právě jedna [[pojmy:pozice|pozice]] slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako ''Z'' (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] na atribut ''col_type'' s dodatečným filtrem podle [[pojmy:regularni_vyrazy|regulárního výrazu]] ''.H'' a typem výstupu zadaným jako atribut ''col_lemma''. |
| |
^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ příklad jeho označení v korpusu ^ | ^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ příklad jeho označení v korpusu ^ |
| K | neslovesné kolokace | a_právě_proto | A''[JZ]'' právě''[JZ]'' proto''[JH]'' se tak nejspíš nestalo. | | | K | neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou''[KZ]'' do''[KZ]'' pekel''[KH]''. | |
| J | víceslovné spojky (word of conjuctions) | cesta_do_pekel | Dluhy jsou cestou''[KZ]'' do''[KZ]'' pekel''[KH]''. | | | J | víceslovné spojky | a_právě_proto | A''[JZ]'' právě''[JZ]'' proto''[JH]'' se tak nejspíš nestalo. | |
| M | přísloví, okřídlená rčení, citace apod. (word of proverbs) | čiň_peklu_dobře,_peklem_se_ti_odmění | Čiň''[MZ]'' čertu''[MZ]'' dobře''[MZ]'', peklem''[MZ]'' se''[MZ]'' ti''[MZ]'' odmění''[MH]''. | | | M | přísloví, okřídlená rčení, citace apod. | čiň_čertu_dobře,_peklem_se_ti_odmění | Čiň''[MZ]'' čertu''[MZ]'' dobře''[MZ]'', peklem''[MZ]'' se''[MZ]'' ti''[MZ]'' odmění''[MH]''. | |
| P | přirovnání (word of similes) | tma_jako_v_pekle | Uvnitř byla tma''[PZ]'' jako''[PZ]'' v''[PZ]'' pekle''[PH]''. | | | P | přirovnání | tma_jako_v_pekle | Uvnitř byla tma''[PZ]'' jako''[PZ]'' v''[PZ]'' pekle''[PH]''. | |
| S | větné výrazy (word of sentence expressions) | rozpoutalo_se_hotové_peklo | V tu chvíli se''[SZ]'' rozpoutalo''[SZ]'' hotové''[SZ]'' peklo''[SH]''. | | | S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se''[SZ]'' rozpoutalo''[SZ]'' hotové''[SZ]'' peklo''[SH]''. | |
| V | slovesné kolokace (word of verbal collocations) | mít_z_pekla_štěstí | Měl''[VZ]'' jste skutečně z''[VZ]'' pekla''[VZ]'' štěstí''[VH]''. | | | V | slovesné kolokace | mít_z_pekla_štěstí | Měl''[VZ]'' jste skutečně z''[VZ]'' pekla''[VZ]'' štěstí''[VH]''. | |
| |
[{{:seznamy:frazemy-strom.png?nolink&500|Klasifikace víceslovných jednotek}}] | [{{:seznamy:frazemy-strom.png?nolink&500|Klasifikace víceslovných jednotek}}] |
| |
| |
| ===== Zástupná slova v kolokačním lemmatu col_lemma ===== |
| |
| ==== Označení slovního druhu ==== |
| |
| Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení. |
| |
| * ''A'' - nahrazuje libovolné adjektivum v kolokačním [[pojmy:lemma|lemmatu]] (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu) |
| * ''N'' - nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu) |
| * ''V'' - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu) |
| |
| ^ Hodnota atributu col_lemma ^ Příklad ^ |
| | ''col_lemma=%%"%%<fc #ff0000>A</fc>_jako_kámen%%"%%'' | //Svaly v obličeji jsem měl <fc #ff0000>tuhé</fc> jako kámen.// | |
| | ''col_lemma=%%"%%<fc #ff0000>N</fc>_jako_hrom%%"%%'' | //Tomu se říká <fc #ff0000>návrat</fc> jako hrom!// | |
| | ''col_lemma=%%"%%<fc #ff0000>N</fc>_do_nepohody%%"%%'' | //Živnostníci potřebují <fc #ff0000>pracanty</fc> do nepohody.// | |
| | ''col_lemma=%%"%%<fc #ff0000>V</fc>_jako_zařezaný%%"%%'' | //Policista to všecko <fc #ff0000>poslouchal</fc> jako zařezaný.// | |
| |
| ==== Zástupné sloveso „dělat“ ==== |
| |
| ^ Hodnota atributu col_lemma ^ Příklad ^ |
| | ''col_lemma=%%"%%<fc #ff0000>dělat</fc>_do_zblbnutí%%"%%'' | //Jeden obraz <fc #ff0000>točíte</fc> do zblbnutí ze všech stran.// | |
| |
| ==== Zástupné slovo „něco“, „nějaký“ apod. ==== |
| |
| ^ Hodnota atributu col_lemma ^ Příklad ^ |
| | ''col_lemma=%%"%%v_<fc #ff0000>nějakém</fc>_slova_smyslu%%"%%'' | //Můžete milovat někoho, s kým jste prožili – v <fc #ff0000>biblickém</fc> slova smyslu – jednu jedinou noc?// | |
| | ''col_lemma=%%"%%za_<fc #ff0000>nějaké</fc>_převahy%%"%%'' | //... ten poslední v Sušici letos na jaře se hrál za <fc #ff0000>výrazné</fc> převahy domácích// | |
| |
| ==== Varianty v kolokačním lemmatu ==== |
| |
| V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem. |
| |
| ^ Hodnota atributu col_lemma ^ Příklad ^ |
| | ''col_lemma=%%"%%někomu_došla/dojde_trpělivost%%"%%'' | //Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// | |