AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verzeObě strany příští revize
kurz:hledani_frazemy [2018/08/13 13:30] – vytvořeno vaclavcvrcekkurz:hledani_frazemy [2018/08/13 13:32] michalskrabal
Řádek 1: Řádek 1:
-====== Označení frazémů a ustálených slovních kolokací v korpusových textech ====== 
- 
-===== Základní pojmy ===== 
- 
-==== Frazém ==== 
- 
-[[pojmy:frazem|Frazém]] nelze zpravidla vymezit jedinou vlastností, například nejrozšířenější pojetí jako ustáleného spojení slov, jehož význam je neodvoditelný z významu jeho složek, nevyhovuje všem typům. K praktické identifikaci frazému slouží definice frazému jako jedinečného spojení minimálně dvou prvků, z nichž některý (popřípadě žádný) nefunguje stejným způsobem v jiném spojení (resp. více spojeních), popřípadě se vyskytuje pouze ve výrazu jediném (resp. několika málo).((Filipec, Čermák, 1985, s. 166)) 
- 
-Formálně je frazém ustálená diskrétní jednotka (na většině úrovní komponentů) tvořená zřetelnou kombinací aspoň dvou komponentů. Zároveň je takováto jednotka i kombinací v různém smyslu anomální, nepravidelnou. Jedním z důsledků ustálenosti frazému je zpravidla i nemožnost vkládat mezi jeho komponenty nějaký externí prvek kontextu. 
- 
-Frazém je ustálené spojení slov se samostatným významem, kde přinejmenším jeden z komponentů je omezen právě na toto spojení v daném významu. Idiom je ustálené spojení slov osobité pro jistý jazyk. Kritériem vymezení frazému a idiomu je ustálenost. 
- 
-==== Program automatického vyhledávání frazémů v korpusových datech ==== 
- 
-**FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza) je program pro automatické vyhledávání frazémů a ustálených slovních spojení na základě **Slovníku české frazeologie a idiomatiky** (SČFI) v korpusových datech. Automaticky nalezená slovní spojení jsou v datech označena a lze je vyhledávat pomocí korpusového manažeru podle dalšího parametru – kolokačního lemmatu: col_lemma (collocation lemma), spolu s parametrem pro označením druhu ustáleného slovního spojení: col_type (collocation type). 
- 
-=== Slovník české frazeologie a idiomatiky === 
- 
- 
-[{{ :seznamy:scfi1.jpg?100|}}] 
-[{{ :seznamy:scfi2.jpg?100|}}] 
-[{{ :seznamy:scfi3.jpg?100|}}] 
-[{{ :seznamy:scfi4.jpg?100|}}] 
- 
- 
-Slovník české frazeologie a idiomatiky (SČFI) má dnes čtyři svazky: Přirovnání (1983),  Výrazy neslovesné (1988), Výrazy slovesné (1994) a Výrazy větné (2009). Celý slovník má jednotnou koncepci, je kladen důraz na anomální sématickou nebo formální povahu komponentů frazému a jeho ustálenost. 
- 
-SČFI obsahuje: frazémy, idiomy a ustálená slovní spojení: složené spojkové výrazy (//a právě proto//, //i přesto že//), 
-víceslovné částice (//děj se co děj//, //nebo tak něco//), složené předložkové výrazy (//na pokladě//, //tváří v tvář//), přísloví (//všechno zlé je k něčemu dobré//), přirovnání (//jako by někomu z oka vypadl//, //mít hlad jako vlk//), kvazifrazémy (//trpět chorobou//, //obstát v konkurenci//), větné výrazy (//slovo dalo slovo//, //blýská se na lepší časy//) 
- 
-Program automatického vyhledávání kolokací (na základě SČFI) pracuje na jednoznačném morfologicky otagovaném textu. Samotná procedura identifikace ustálených kolokací v korpusových datech je součástí složitého procesu automatické morfologické [[pojmy:morfologicka_analyza|disambiguace]], proto je slovům, která jsou součástí hledaného ustáleného řetězce slov, většinou již přiřazena správná morfologická interpretace. Seznamy frazémů jsou uvedeny v tabulce, kterou program vyhledávání využívá.  
- 
-Program vyhledávání nesouvislých frazémů umožňuje zadat morfologickou informaci pro jednotlivá slova, proměnnou za lexikální jednotku a určit změnu slovosledu. Je určeno, zda se jedná o souvislé nebo nesouvislé spojení slov, tj. jsou označena místa ve větě, kde se mohou nacházet libovolná slova, která nejsou součástí frazému, a naopak je určeno, že se na dané pozici nemůže vyskytovat určité slovo (určeno dle slovního druhu). 
- 
-Při zadávání příslušného hesla ustáleného spojení slov do programu je nutný podrobný lingvistický rozbor (na základě vyhledávání v korpusu) s určením specifických podmínek, nutných pro dané výskyty řetězců slov, aby nám aplikace automatického vyhledávání umožnila nalézt různé varianty základního hesla daného ustáleného spojení. 
- 
-Automaticky nalezená frazémová slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači Kontext podle dalších atributů **col_lemma** a **col_type** s tímto významem: 
- 
-**col_lemma - lemma víceslovné jednotky** (collocation lemma) 
- 
-řetězec ve tvaru slovníkového hesla v základním tvaru (nominativ singular, infinitiv apod.), malými písmeny (kromě názvů), slova jsou oddělená podtržítkem 
- 
-**col_type - typ víceslovné jednotky** (collocation type) 
- 
-dvoupísmenný tag: [JKPMSV][HZ], na 1. pozici tagu je označen druh víceslovné jednotky a 2. pozice slouží pouze pro vyhodnocení frekvence dané kolokace v textu.  
- 
-col_type se skládá ze dvou písmen  - první pozice označuje druh ustálené kolokace a druhá pozice slouží k označení hlavního nebo vedlejšího slova ve slovním spojení  - Označení konkrétního slova kolokace jako H (hlavní slovo) nemá žádný syntaktický význam - pouze je dodrženo pravidlo, že písmenem H na druhé pozici v col_type je označeno právě jedno slovo v označené kolokaci (jedná se zpravidla o poslední slovo ve slovním spojení), je zavedeno pouze kvůli správnému zobrazení daného výskytu ve vyhledávači a možnému počítání frekvencí daných výskytů označených kolokací. 
- 
-^ 1. pozice: ^^ 
-| J | víceslovné spojky (word of conjuctions) | 
-| K | neslovesné kolokace (word of nonverbal collocations) | 
-| V | slovesné kolokace (word of verbal collocations) | 
-| P | přirovnání (word of similes) | 
-| M | přísloví, citace apod. (word of proverbs) | 
-| S | větné výrazy (word of sentence expressions) | 
-^ 2. pozice: (pouze pro počítání frekvencí označených kolokací) ^^ 
-| H | hlavní uzel kolokace | 
-| Z | ostatní uzel kolokace | 
- 
-Slova, která nejsou součástí žádné označené kolokace, mají parametry col_lemma a col_type prázdné. 
- 
-==== Klasifikace ustálených spojení ==== 
- 
-Tabulky programu Franta obsahují celkem 39 705 různých lemmat kolokací, z toho je 18 998 různých slovesných lemmat kolokací (označení col_type V), 5 179 různých lemmat větných výrazů (označení col_type S), 5 833 různých lemmat přirovnání (označení col_type P), 1 414 různých lemmat přísloví (označení col_type M), celkem 8 249 různých neslovesných lemmat kolokací (označení col_type K) zahrnuje 2 628 různých neslovesných neohebných lemmat kolokací (víceslovné částice, víceslovná adverbiále, ustálená předložková nominální slovní spojení) a 5 621 různých neslovesných ohebných lemmat kolokací (ustálená nominální slovní spojení). 
-Nejméně zpracované je označení složených spojkových výrazů, dosud se označuje pouze 35 různých lemmat kolokací (označení col_type J) 
- 
-TABULKA popis  
- 
-^ 1. pozice \\ col_type ^ 2. pozice \\ col_type ^ význam ^ col_lemma ^ příklad ^ 
-| J | Z/H* | slovo/hlavní slovo \\ spojkového výrazu | a_právě_proto | A-JZ právě-JZ proto-JH se tak nejspíš nestalo. | 
-| K | Z/H* | slovo/hlavní slovo \\ neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou-KZ do-KZ pekel-KH. | 
-| V | Z/H* | slovo/hlavní slovo \\ slovesné kolokace | mít_z_pekla_štěstí | Měl-VZ jste skutečně z-VZ pekla-VZ štěstí-VH. | 
-| P | Z/H* | slovo/hlavní slovo \\ přirovnání | tma_jako_v_pekle | Uvnitř byla tma-PZ jako-PZ v-PZ pekle-PH. | 
-| M | Z/H* | slovo/hlavní slovo \\ přísloví | čiň_peklu_dobře,_peklem_se_ti_odmění |Čiň-MZ čertu-MZ dobře-MZ,  peklem-MZ se-MZ ti-MZ  odmění-MH. | 
-| S | Z/H* | slovo/hlavní slovo \\ větného výrazu | rozpoutalo_se_hotové_peklo | V tu chvíli se-SZ rozpoutalo-SZ hotové-SZ  peklo-SH. | 
-* označení hlavního slova dané kolokace je pouze z technických důvodů pro vyhodnocení frekvence 
- 
- 
-Jednoduchým dotazem nalezneme všechny označené kolokace (každý označený výskyt víceslovného slovního spojení se zobrazí pouze jednou): 
- 
-''[col_type=%%".H"%%]'' 
- 
-{{:seznamy:dotaz1.png?|}} 
- 
-Naopak dotazem ''[col_type=%%"..*"%%]'' - nalezne všechna slova, která jsou součástí nějaké označené kolokace, v korpusu SYN2015 jich je celkem 3 889 930, tedy 3,2 % ze všech pozic 
- 
- 
- 
-**Zástupná slova v kolokačním lemmatu col_lemma** 
- 
-1. Označení slovního druhu  
- 
-Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení. 
- 
-A - nahrazuje libovolné adjektivum  v kolokačním lemmatu (za konkrétní lemma adjektiva v daném  výskytu přirovnání v korpusu)\\ 
-N - nahrazuje libovolné substantivum  v kolokačním lemmatu (za konkrétní lemma substantiva v daném  výskytu přirovnání v korpusu)\\ 
-V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném  výskytu přirovnání v korpusu) 
- 
-Příklady:\\ 
-col_lemma=%%"%%<fc #ff0000>A</fc>%%_jako_kámen"%%\\ 
-//Svaly v obličeji jsem měl <fc #ff0000>tuhé</fc> jako  kámen.// 
-  
-col_lemma=%%"%%<fc #ff0000>N</fc>%%_jako_hrom"%%\\ 
-//Tomu se říká <fc #ff0000>návrat</fc> jako  hrom!//\\ 
-col_lemma=%%"%%<fc #ff0000>N</fc>%%_do_nepohody"%%\\ 
-//Živnostníci potřebují <fc #ff0000>pracanty</fc> do  nepohody.// 
- 
-col_lemma=%%"%%<fc #ff0000>V</fc>%%_jako_zařezaný"%%\\ 
-//Policista to všecko <fc #ff0000>poslouchal</fc> jako  zařezaný.// 
- 
-2. Zástupné sloveso **dělat** 
- 
-col_lemma=%%"%%<fc #ff0000>dělat</fc>%%_do_zblbnutí"%%\\ 
-//Jeden obraz <fc #ff0000>točíte</fc> do zblbnutí ze všech stran.// 
- 
-3. Zástupné slovo **něco, nějaký** apod. 
- 
-col_lemma=%%"v_%%<fc #ff0000>nějakém</fc>%%_slova_smyslu"%%\\ 
-//Můžete milovat někoho, s kým jste prožili – v <fc #ff0000>biblickém</fc> slova smyslu – jednu jedinou noc?// 
- 
-col_lemma=%%"za_%%<fc #ff0000>nějaké</fc>%%_převahy"%%\\ 
-//... ten poslední v Sušici letos na jaře se hrál za <fc #ff0000>výrazné</fc> převahy domácích// 
- 
- 
-V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem:\\ 
- 
-col_lemma=%%"někomu_došla/dojde_trpělivost"%%\\ 
-//Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// 
- 
- 
  
 <fs large>**Jak tomu přijít na kloub**</fs> <fs large>**Jak tomu přijít na kloub**</fs>