Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:hledani_frazemy [2018/08/13 13:30] – vytvořeno vaclavcvrcek
+++ kurz:hledani_frazemy [2018/08/13 13:32] – michalskrabal
@@ Řádek 1: / Řádek 1: @@
-====== Označení frazémů a ustálených slovních kolokací v korpusových textech ======
-===== Základní pojmy =====
-==== Frazém ====
-[[pojmy:frazem|Frazém]] nelze zpravidla vymezit jedinou vlastností, například nejrozšířenější pojetí jako ustáleného spojení slov, jehož význam je neodvoditelný z významu jeho složek, nevyhovuje všem typům. K praktické identifikaci frazému slouží definice frazému jako jedinečného spojení minimálně dvou prvků, z nichž některý (popřípadě žádný) nefunguje stejným způsobem v jiném spojení (resp. více spojeních), popřípadě se vyskytuje pouze ve výrazu jediném (resp. několika málo).((Filipec, Čermák, 1985, s. 166))
-Formálně je frazém ustálená diskrétní jednotka (na většině úrovní komponentů) tvořená zřetelnou kombinací aspoň dvou komponentů. Zároveň je takováto jednotka i kombinací v různém smyslu anomální, nepravidelnou. Jedním z důsledků ustálenosti frazému je zpravidla i nemožnost vkládat mezi jeho komponenty nějaký externí prvek kontextu.
-Frazém je ustálené spojení slov se samostatným významem, kde přinejmenším jeden z komponentů je omezen právě na toto spojení v daném významu. Idiom je ustálené spojení slov osobité pro jistý jazyk. Kritériem vymezení frazému a idiomu je ustálenost.
-==== Program automatického vyhledávání frazémů v korpusových datech ====
-**FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza) je program pro automatické vyhledávání frazémů a ustálených slovních spojení na základě **Slovníku české frazeologie a idiomatiky** (SČFI) v korpusových datech. Automaticky nalezená slovní spojení jsou v datech označena a lze je vyhledávat pomocí korpusového manažeru podle dalšího parametru – kolokačního lemmatu: col_lemma (collocation lemma), spolu s parametrem pro označením druhu ustáleného slovního spojení: col_type (collocation type).
-=== Slovník české frazeologie a idiomatiky ===
-[{{ :seznamy:scfi1.jpg?100|}}]
-[{{ :seznamy:scfi2.jpg?100|}}]
-[{{ :seznamy:scfi3.jpg?100|}}]
-[{{ :seznamy:scfi4.jpg?100|}}]
-Slovník české frazeologie a idiomatiky (SČFI) má dnes čtyři svazky: Přirovnání (1983),  Výrazy neslovesné (1988), Výrazy slovesné (1994) a Výrazy větné (2009). Celý slovník má jednotnou koncepci, je kladen důraz na anomální sématickou nebo formální povahu komponentů frazému a jeho ustálenost.
-SČFI obsahuje: frazémy, idiomy a ustálená slovní spojení: složené spojkové výrazy (//a právě proto//, //i přesto že//),
-víceslovné částice (//děj se co děj//, //nebo tak něco//), složené předložkové výrazy (//na pokladě//, //tváří v tvář//), přísloví (//všechno zlé je k něčemu dobré//), přirovnání (//jako by někomu z oka vypadl//, //mít hlad jako vlk//), kvazifrazémy (//trpět chorobou//, //obstát v konkurenci//), větné výrazy (//slovo dalo slovo//, //blýská se na lepší časy//)
-Program automatického vyhledávání kolokací (na základě SČFI) pracuje na jednoznačném morfologicky otagovaném textu. Samotná procedura identifikace ustálených kolokací v korpusových datech je součástí složitého procesu automatické morfologické [[pojmy:morfologicka_analyza|disambiguace]], proto je slovům, která jsou součástí hledaného ustáleného řetězce slov, většinou již přiřazena správná morfologická interpretace. Seznamy frazémů jsou uvedeny v tabulce, kterou program vyhledávání využívá.
-Program vyhledávání nesouvislých frazémů umožňuje zadat morfologickou informaci pro jednotlivá slova, proměnnou za lexikální jednotku a určit změnu slovosledu. Je určeno, zda se jedná o souvislé nebo nesouvislé spojení slov, tj. jsou označena místa ve větě, kde se mohou nacházet libovolná slova, která nejsou součástí frazému, a naopak je určeno, že se na dané pozici nemůže vyskytovat určité slovo (určeno dle slovního druhu).
-Při zadávání příslušného hesla ustáleného spojení slov do programu je nutný podrobný lingvistický rozbor (na základě vyhledávání v korpusu) s určením specifických podmínek, nutných pro dané výskyty řetězců slov, aby nám aplikace automatického vyhledávání umožnila nalézt různé varianty základního hesla daného ustáleného spojení.
-Automaticky nalezená frazémová slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači Kontext podle dalších atributů **col_lemma** a **col_type** s tímto významem:
-**col_lemma - lemma víceslovné jednotky** (collocation lemma)
-řetězec ve tvaru slovníkového hesla v základním tvaru (nominativ singular, infinitiv apod.), malými písmeny (kromě názvů), slova jsou oddělená podtržítkem
-**col_type - typ víceslovné jednotky** (collocation type)
-dvoupísmenný tag: [JKPMSV][HZ], na 1. pozici tagu je označen druh víceslovné jednotky a 2. pozice slouží pouze pro vyhodnocení frekvence dané kolokace v textu.
-col_type se skládá ze dvou písmen  - první pozice označuje druh ustálené kolokace a druhá pozice slouží k označení hlavního nebo vedlejšího slova ve slovním spojení  - Označení konkrétního slova kolokace jako H (hlavní slovo) nemá žádný syntaktický význam - pouze je dodrženo pravidlo, že písmenem H na druhé pozici v col_type je označeno právě jedno slovo v označené kolokaci (jedná se zpravidla o poslední slovo ve slovním spojení), je zavedeno pouze kvůli správnému zobrazení daného výskytu ve vyhledávači a možnému počítání frekvencí daných výskytů označených kolokací.
-^ 1. pozice: ^^
-| J | víceslovné spojky (word of conjuctions) |
-| K | neslovesné kolokace (word of nonverbal collocations) |
-| V | slovesné kolokace (word of verbal collocations) |
-| P | přirovnání (word of similes) |
-| M | přísloví, citace apod. (word of proverbs) |
-| S | větné výrazy (word of sentence expressions) |
-^ 2. pozice: (pouze pro počítání frekvencí označených kolokací) ^^
-| H | hlavní uzel kolokace |
-| Z | ostatní uzel kolokace |
-Slova, která nejsou součástí žádné označené kolokace, mají parametry col_lemma a col_type prázdné.
-==== Klasifikace ustálených spojení ====
-Tabulky programu Franta obsahují celkem 39 705 různých lemmat kolokací, z toho je 18 998 různých slovesných lemmat kolokací (označení col_type V), 5 179 různých lemmat větných výrazů (označení col_type S), 5 833 různých lemmat přirovnání (označení col_type P), 1 414 různých lemmat přísloví (označení col_type M), celkem 8 249 různých neslovesných lemmat kolokací (označení col_type K) zahrnuje 2 628 různých neslovesných neohebných lemmat kolokací (víceslovné částice, víceslovná adverbiále, ustálená předložková nominální slovní spojení) a 5 621 různých neslovesných ohebných lemmat kolokací (ustálená nominální slovní spojení).
-Nejméně zpracované je označení složených spojkových výrazů, dosud se označuje pouze 35 různých lemmat kolokací (označení col_type J)
-TABULKA popis
-^ 1. pozice \\ col_type ^ 2. pozice \\ col_type ^ význam ^ col_lemma ^ příklad ^
-| J | Z/H* | slovo/hlavní slovo \\ spojkového výrazu | a_právě_proto | A-JZ právě-JZ proto-JH se tak nejspíš nestalo. |
-| K | Z/H* | slovo/hlavní slovo \\ neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou-KZ do-KZ pekel-KH. |
-| V | Z/H* | slovo/hlavní slovo \\ slovesné kolokace | mít_z_pekla_štěstí | Měl-VZ jste skutečně z-VZ pekla-VZ štěstí-VH. |
-| P | Z/H* | slovo/hlavní slovo \\ přirovnání | tma_jako_v_pekle | Uvnitř byla tma-PZ jako-PZ v-PZ pekle-PH. |
-| M | Z/H* | slovo/hlavní slovo \\ přísloví | čiň_peklu_dobře,_peklem_se_ti_odmění |Čiň-MZ čertu-MZ dobře-MZ,  peklem-MZ se-MZ ti-MZ  odmění-MH. |
-| S | Z/H* | slovo/hlavní slovo \\ větného výrazu | rozpoutalo_se_hotové_peklo | V tu chvíli se-SZ rozpoutalo-SZ hotové-SZ  peklo-SH. |
-* označení hlavního slova dané kolokace je pouze z technických důvodů pro vyhodnocení frekvence
-Jednoduchým dotazem nalezneme všechny označené kolokace (každý označený výskyt víceslovného slovního spojení se zobrazí pouze jednou):
-''[col_type=%%".H"%%]''
-{{:seznamy:dotaz1.png?|}}
-Naopak dotazem ''[col_type=%%"..*"%%]'' - nalezne všechna slova, která jsou součástí nějaké označené kolokace, v korpusu SYN2015 jich je celkem 3 889 930, tedy 3,2 % ze všech pozic
-**Zástupná slova v kolokačním lemmatu col_lemma**
-. Označení slovního druhu
-Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.
-A - nahrazuje libovolné adjektivum  v kolokačním lemmatu (za konkrétní lemma adjektiva v daném  výskytu přirovnání v korpusu)\\
-N - nahrazuje libovolné substantivum  v kolokačním lemmatu (za konkrétní lemma substantiva v daném  výskytu přirovnání v korpusu)\\
-V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném  výskytu přirovnání v korpusu)
-Příklady:\\
-col_lemma=%%"%%<fc #ff0000>A</fc>%%_jako_kámen"%%\\
-//Svaly v obličeji jsem měl <fc #ff0000>tuhé</fc> jako  kámen.//
-col_lemma=%%"%%<fc #ff0000>N</fc>%%_jako_hrom"%%\\
-//Tomu se říká <fc #ff0000>návrat</fc> jako  hrom!//\\
-col_lemma=%%"%%<fc #ff0000>N</fc>%%_do_nepohody"%%\\
-//Živnostníci potřebují <fc #ff0000>pracanty</fc> do  nepohody.//
-col_lemma=%%"%%<fc #ff0000>V</fc>%%_jako_zařezaný"%%\\
-//Policista to všecko <fc #ff0000>poslouchal</fc> jako  zařezaný.//
-. Zástupné sloveso **dělat**
-col_lemma=%%"%%<fc #ff0000>dělat</fc>%%_do_zblbnutí"%%\\
-//Jeden obraz <fc #ff0000>točíte</fc> do zblbnutí ze všech stran.//
-. Zástupné slovo **něco, nějaký** apod.
-col_lemma=%%"v_%%<fc #ff0000>nějakém</fc>%%_slova_smyslu"%%\\
-//Můžete milovat někoho, s kým jste prožili – v <fc #ff0000>biblickém</fc> slova smyslu – jednu jedinou noc?//
-col_lemma=%%"za_%%<fc #ff0000>nějaké</fc>%%_převahy"%%\\
-//... ten poslední v Sušici letos na jaře se hrál za <fc #ff0000>výrazné</fc> převahy domácích//
-V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem:\\
-col_lemma=%%"někomu_došla/dojde_trpělivost"%%\\
-//Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.//
 <fs large>**Jak tomu přijít na kloub**</fs>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence