Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verzeObě strany příští revize | |||
kurz:hledani_frazemy [2018/08/13 13:30] – vytvořeno vaclavcvrcek | kurz:hledani_frazemy [2018/08/13 13:32] – michalskrabal | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== Označení frazémů a ustálených slovních kolokací v korpusových textech ====== | ||
- | |||
- | ===== Základní pojmy ===== | ||
- | |||
- | ==== Frazém ==== | ||
- | |||
- | [[pojmy: | ||
- | |||
- | Formálně je frazém ustálená diskrétní jednotka (na většině úrovní komponentů) tvořená zřetelnou kombinací aspoň dvou komponentů. Zároveň je takováto jednotka i kombinací v různém smyslu anomální, nepravidelnou. Jedním z důsledků ustálenosti frazému je zpravidla i nemožnost vkládat mezi jeho komponenty nějaký externí prvek kontextu. | ||
- | |||
- | Frazém je ustálené spojení slov se samostatným významem, kde přinejmenším jeden z komponentů je omezen právě na toto spojení v daném významu. Idiom je ustálené spojení slov osobité pro jistý jazyk. Kritériem vymezení frazému a idiomu je ustálenost. | ||
- | |||
- | ==== Program automatického vyhledávání frazémů v korpusových datech ==== | ||
- | |||
- | **FRANTA** (<fc # | ||
- | |||
- | === Slovník české frazeologie a idiomatiky === | ||
- | |||
- | |||
- | [{{ : | ||
- | [{{ : | ||
- | [{{ : | ||
- | [{{ : | ||
- | |||
- | |||
- | Slovník české frazeologie a idiomatiky (SČFI) má dnes čtyři svazky: Přirovnání (1983), | ||
- | |||
- | SČFI obsahuje: frazémy, idiomy a ustálená slovní spojení: složené spojkové výrazy (//a právě proto//, //i přesto že//), | ||
- | víceslovné částice (//děj se co děj//, //nebo tak něco//), složené předložkové výrazy (//na pokladě//, //tváří v tvář//), přísloví (//všechno zlé je k něčemu dobré//), přirovnání (//jako by někomu z oka vypadl//, //mít hlad jako vlk//), kvazifrazémy (//trpět chorobou//, //obstát v konkurenci// | ||
- | |||
- | Program automatického vyhledávání kolokací (na základě SČFI) pracuje na jednoznačném morfologicky otagovaném textu. Samotná procedura identifikace ustálených kolokací v korpusových datech je součástí složitého procesu automatické morfologické [[pojmy: | ||
- | |||
- | Program vyhledávání nesouvislých frazémů umožňuje zadat morfologickou informaci pro jednotlivá slova, proměnnou za lexikální jednotku a určit změnu slovosledu. Je určeno, zda se jedná o souvislé nebo nesouvislé spojení slov, tj. jsou označena místa ve větě, kde se mohou nacházet libovolná slova, která nejsou součástí frazému, a naopak je určeno, že se na dané pozici nemůže vyskytovat určité slovo (určeno dle slovního druhu). | ||
- | |||
- | Při zadávání příslušného hesla ustáleného spojení slov do programu je nutný podrobný lingvistický rozbor (na základě vyhledávání v korpusu) s určením specifických podmínek, nutných pro dané výskyty řetězců slov, aby nám aplikace automatického vyhledávání umožnila nalézt různé varianty základního hesla daného ustáleného spojení. | ||
- | |||
- | Automaticky nalezená frazémová slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači Kontext podle dalších atributů **col_lemma** a **col_type** s tímto významem: | ||
- | |||
- | **col_lemma - lemma víceslovné jednotky** (collocation lemma) | ||
- | |||
- | řetězec ve tvaru slovníkového hesla v základním tvaru (nominativ singular, infinitiv apod.), malými písmeny (kromě názvů), slova jsou oddělená podtržítkem | ||
- | |||
- | **col_type - typ víceslovné jednotky** (collocation type) | ||
- | |||
- | dvoupísmenný tag: [JKPMSV][HZ], | ||
- | |||
- | col_type se skládá ze dvou písmen | ||
- | |||
- | ^ 1. pozice: ^^ | ||
- | | J | víceslovné spojky (word of conjuctions) | | ||
- | | K | neslovesné kolokace (word of nonverbal collocations) | | ||
- | | V | slovesné kolokace (word of verbal collocations) | | ||
- | | P | přirovnání (word of similes) | | ||
- | | M | přísloví, | ||
- | | S | větné výrazy (word of sentence expressions) | | ||
- | ^ 2. pozice: (pouze pro počítání frekvencí označených kolokací) ^^ | ||
- | | H | hlavní uzel kolokace | | ||
- | | Z | ostatní uzel kolokace | | ||
- | |||
- | Slova, která nejsou součástí žádné označené kolokace, mají parametry col_lemma a col_type prázdné. | ||
- | |||
- | ==== Klasifikace ustálených spojení ==== | ||
- | |||
- | Tabulky programu Franta obsahují celkem 39 705 různých lemmat kolokací, z toho je 18 998 různých slovesných lemmat kolokací (označení col_type V), 5 179 různých lemmat větných výrazů (označení col_type S), 5 833 různých lemmat přirovnání (označení col_type P), 1 414 různých lemmat přísloví (označení col_type M), celkem 8 249 různých neslovesných lemmat kolokací (označení col_type K) zahrnuje 2 628 různých neslovesných neohebných lemmat kolokací (víceslovné částice, víceslovná adverbiále, | ||
- | Nejméně zpracované je označení složených spojkových výrazů, dosud se označuje pouze 35 různých lemmat kolokací (označení col_type J) | ||
- | |||
- | TABULKA popis | ||
- | |||
- | ^ 1. pozice \\ col_type ^ 2. pozice \\ col_type ^ význam ^ col_lemma ^ příklad ^ | ||
- | | J | Z/H* | slovo/ | ||
- | | K | Z/H* | slovo/ | ||
- | | V | Z/H* | slovo/ | ||
- | | P | Z/H* | slovo/ | ||
- | | M | Z/H* | slovo/ | ||
- | | S | Z/H* | slovo/ | ||
- | * označení hlavního slova dané kolokace je pouze z technických důvodů pro vyhodnocení frekvence | ||
- | |||
- | |||
- | Jednoduchým dotazem nalezneme všechny označené kolokace (každý označený výskyt víceslovného slovního spojení se zobrazí pouze jednou): | ||
- | |||
- | '' | ||
- | |||
- | {{: | ||
- | |||
- | Naopak dotazem '' | ||
- | |||
- | |||
- | |||
- | **Zástupná slova v kolokačním lemmatu col_lemma** | ||
- | |||
- | 1. Označení slovního druhu | ||
- | |||
- | Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), | ||
- | |||
- | A - nahrazuje libovolné adjektivum | ||
- | N - nahrazuje libovolné substantivum | ||
- | V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném | ||
- | |||
- | Příklady: | ||
- | col_lemma=%%" | ||
- | //Svaly v obličeji jsem měl <fc # | ||
- | |||
- | col_lemma=%%" | ||
- | //Tomu se říká <fc # | ||
- | col_lemma=%%" | ||
- | // | ||
- | |||
- | col_lemma=%%" | ||
- | //Policista to všecko <fc # | ||
- | |||
- | 2. Zástupné sloveso **dělat** | ||
- | |||
- | col_lemma=%%" | ||
- | //Jeden obraz <fc # | ||
- | |||
- | 3. Zástupné slovo **něco, nějaký** apod. | ||
- | |||
- | col_lemma=%%" | ||
- | //Můžete milovat někoho, s kým jste prožili – v <fc # | ||
- | |||
- | col_lemma=%%" | ||
- | //... ten poslední v Sušici letos na jaře se hrál za <fc # | ||
- | |||
- | |||
- | V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem: | ||
- | |||
- | col_lemma=%%" | ||
- | //Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// | ||
- | |||
- | |||
<fs large> | <fs large> |