Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Následující verze | Předchozí verze | ||
| kurz:hledani_frazemy [2018/08/13 13:30] – vytvořeno vaclavcvrcek | kurz:hledani_frazemy [2021/02/09 13:56] (aktuální) – jankrivan | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| - | ====== | + | ====== |
| - | ===== Základní pojmy ===== | + | Níže uvádíme několik příkladů využití [[seznamy: |
| - | ==== Frazém | + | ===== Hledání podle kolokačního lemmatu ===== |
| - | [[pojmy:frazem|Frazém]] nelze zpravidla vymezit jedinou vlastností, | + | Úkol: Najděte všechny výskyty konkrétního |
| - | + | ||
| - | Formálně je frazém ustálená diskrétní jednotka (na většině úrovní komponentů) tvořená zřetelnou kombinací aspoň dvou komponentů. Zároveň je takováto jednotka i kombinací v různém smyslu anomální, nepravidelnou. Jedním z důsledků ustálenosti frazému je zpravidla i nemožnost vkládat mezi jeho komponenty nějaký externí prvek kontextu. | + | |
| - | + | ||
| - | Frazém je ustálené spojení slov se samostatným významem, kde přinejmenším jeden z komponentů je omezen právě na toto spojení v daném významu. Idiom je ustálené spojení slov osobité pro jistý jazyk. Kritériem vymezení frazému a idiomu je ustálenost. | + | |
| - | + | ||
| - | ==== Program automatického vyhledávání frazémů v korpusových datech ==== | + | |
| - | + | ||
| - | **FRANTA** (<fc # | + | |
| - | + | ||
| - | === Slovník české frazeologie a idiomatiky === | + | |
| - | + | ||
| - | + | ||
| - | [{{ : | + | |
| - | [{{ : | + | |
| - | [{{ : | + | |
| - | [{{ : | + | |
| - | + | ||
| - | + | ||
| - | Slovník české frazeologie a idiomatiky (SČFI) má dnes čtyři svazky: Přirovnání (1983), | + | |
| - | + | ||
| - | SČFI obsahuje: frazémy, idiomy a ustálená slovní spojení: složené spojkové výrazy (//a právě proto//, //i přesto že//), | + | |
| - | víceslovné částice (//děj se co děj//, //nebo tak něco//), složené předložkové výrazy (//na pokladě//, //tváří v tvář//), přísloví (//všechno zlé je k něčemu dobré//), přirovnání (//jako by někomu z oka vypadl//, //mít hlad jako vlk//), kvazifrazémy (//trpět chorobou//, //obstát v konkurenci// | + | |
| - | + | ||
| - | Program automatického vyhledávání kolokací (na základě SČFI) pracuje na jednoznačném morfologicky otagovaném textu. Samotná procedura identifikace ustálených kolokací v korpusových datech je součástí složitého procesu automatické morfologické | + | |
| - | + | ||
| - | Program vyhledávání nesouvislých frazémů umožňuje zadat morfologickou informaci pro jednotlivá slova, proměnnou za lexikální jednotku a určit změnu slovosledu. Je určeno, zda se jedná o souvislé nebo nesouvislé spojení slov, tj. jsou označena místa ve větě, kde se mohou nacházet libovolná slova, která nejsou součástí | + | |
| - | + | ||
| - | Při zadávání příslušného hesla ustáleného spojení slov do programu je nutný podrobný lingvistický rozbor (na základě vyhledávání v korpusu) s určením specifických podmínek, nutných pro dané výskyty řetězců slov, aby nám aplikace automatického vyhledávání umožnila nalézt různé varianty základního hesla daného ustáleného spojení. | + | |
| - | + | ||
| - | Automaticky nalezená frazémová slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači Kontext podle dalších atributů **col_lemma** a **col_type** s tímto významem: | + | |
| - | + | ||
| - | **col_lemma - lemma víceslovné jednotky** (collocation lemma) | + | |
| - | + | ||
| - | řetězec ve tvaru slovníkového hesla v základním tvaru (nominativ singular, infinitiv apod.), malými písmeny (kromě názvů), slova jsou oddělená podtržítkem | + | |
| - | + | ||
| - | **col_type - typ víceslovné jednotky** (collocation type) | + | |
| - | + | ||
| - | dvoupísmenný tag: [JKPMSV][HZ], na 1. pozici tagu je označen druh víceslovné jednotky a 2. pozice slouží pouze pro vyhodnocení frekvence dané kolokace v textu. | + | |
| - | + | ||
| - | col_type se skládá ze dvou písmen | + | |
| - | + | ||
| - | ^ 1. pozice: ^^ | + | |
| - | | J | víceslovné spojky (word of conjuctions) | | + | |
| - | | K | neslovesné kolokace (word of nonverbal collocations) | | + | |
| - | | V | slovesné kolokace (word of verbal collocations) | | + | |
| - | | P | přirovnání (word of similes) | | + | |
| - | | M | přísloví, | + | |
| - | | S | větné výrazy (word of sentence expressions) | | + | |
| - | ^ 2. pozice: (pouze pro počítání frekvencí označených kolokací) ^^ | + | |
| - | | H | hlavní uzel kolokace | | + | |
| - | | Z | ostatní uzel kolokace | | + | |
| - | + | ||
| - | Slova, která nejsou součástí žádné označené kolokace, mají parametry col_lemma a col_type prázdné. | + | |
| - | + | ||
| - | ==== Klasifikace ustálených spojení ==== | + | |
| - | + | ||
| - | Tabulky programu Franta obsahují celkem 39 705 různých lemmat kolokací, z toho je 18 998 různých slovesných lemmat kolokací (označení col_type V), 5 179 různých lemmat větných výrazů (označení col_type S), 5 833 různých lemmat přirovnání (označení col_type P), 1 414 různých lemmat přísloví (označení col_type M), celkem 8 249 různých neslovesných lemmat kolokací (označení col_type K) zahrnuje 2 628 různých neslovesných neohebných lemmat kolokací (víceslovné částice, víceslovná adverbiále, | + | |
| - | Nejméně zpracované je označení složených spojkových výrazů, dosud se označuje pouze 35 různých lemmat kolokací (označení col_type J) | + | |
| - | + | ||
| - | TABULKA popis | + | |
| - | + | ||
| - | ^ 1. pozice \\ col_type ^ 2. pozice \\ col_type ^ význam ^ col_lemma ^ příklad ^ | + | |
| - | | J | Z/H* | slovo/ | + | |
| - | | K | Z/H* | slovo/ | + | |
| - | | V | Z/H* | slovo/ | + | |
| - | | P | Z/H* | slovo/ | + | |
| - | | M | Z/H* | slovo/ | + | |
| - | | S | Z/H* | slovo/ | + | |
| - | * označení hlavního slova dané kolokace je pouze z technických důvodů pro vyhodnocení frekvence | + | |
| - | + | ||
| - | + | ||
| - | Jednoduchým dotazem nalezneme všechny označené kolokace (každý označený výskyt víceslovného slovního spojení se zobrazí pouze jednou): | + | |
| - | + | ||
| - | '' | + | |
| - | + | ||
| - | {{: | + | |
| - | + | ||
| - | Naopak dotazem '' | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | **Zástupná slova v kolokačním lemmatu col_lemma** | + | |
| - | + | ||
| - | 1. Označení slovního druhu | + | |
| - | + | ||
| - | Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), | + | |
| - | + | ||
| - | A - nahrazuje libovolné adjektivum | + | |
| - | N - nahrazuje libovolné substantivum | + | |
| - | V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném | + | |
| - | + | ||
| - | Příklady: | + | |
| - | col_lemma=%%" | + | |
| - | //Svaly v obličeji jsem měl <fc # | + | |
| - | + | ||
| - | col_lemma=%%" | + | |
| - | //Tomu se říká <fc # | + | |
| - | col_lemma=%%" | + | |
| - | // | + | |
| - | + | ||
| - | col_lemma=%%" | + | |
| - | //Policista to všecko <fc # | + | |
| - | + | ||
| - | 2. Zástupné sloveso **dělat** | + | |
| - | + | ||
| - | col_lemma=%%" | + | |
| - | //Jeden obraz <fc # | + | |
| - | + | ||
| - | 3. Zástupné slovo **něco, nějaký** apod. | + | |
| - | + | ||
| - | col_lemma=%%" | + | |
| - | //Můžete milovat někoho, s kým jste prožili – v <fc # | + | |
| - | + | ||
| - | col_lemma=%%" | + | |
| - | //... ten poslední v Sušici letos na jaře se hrál za <fc # | + | |
| - | + | ||
| - | + | ||
| - | V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem: | + | |
| - | + | ||
| - | col_lemma=%%" | + | |
| - | //Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | <fs large> | + | |
| - | + | ||
| - | **Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené? | + | |
| - | + | ||
| - | A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu | + | |
| - | + | ||
| - | B) Text je chybně morfologicky diasmbiguovaný, | + | |
| - | + | ||
| - | C) příslušná kolokace nebyla zařazeno do programu identifikace, | + | |
| - | + | ||
| - | **Jaké je riziko, že označené výskyty nejsou frazeologické? | + | |
| - | + | ||
| - | Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, | + | |
| - | + | ||
| - | Pozor tedy na **frazeologický** a **doslovný** význam slova:\\ | + | |
| - | frazeologizmus popisující | + | |
| - | - col_lemma=" | + | |
| - | //Po odjezdu policistů <fc # | + | |
| - | + | ||
| - | Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:\\ | + | |
| - | //Kocour <fc # | + | |
| - | + | ||
| - | Oproti tomu ustálené slovní spojení: | + | |
| - | col_lemma=" | + | |
| - | //Už ráno bylo zřejmé, že ODS <fc # | + | |
| - | + | ||
| - | se v textu častěji používá v doslovném významu: | + | |
| - | // | + | |
| - | + | ||
| - | **Chybovost automatického označování frazémů.** | + | |
| - | + | ||
| - | Automatické označování ustálených kolokací probíhá | + | |
| - | + | ||
| - | //Kdy jindy by se <fc # | + | |
| - | //V březnu roku 1872 <fc # | + | |
| - | //... každý, kdo <fc # | + | |
| - | // | + | |
| - | //<fc # | + | |
| - | // | + | |
| - | //... v demokratické společnosti | + | |
| - | + | ||
| - | Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, | + | |
| - | + | ||
| - | //... koneckonců <fc # | + | |
| - | //<fc # | + | |
| - | . | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | <fs large> | + | |
| - | Problémy vyhledávání obtížných typů a jevů | + | |
| - | + | ||
| - | **1.Vyhledání konkrétního ustáleného slovního spojení** (dle kolokačního lemmatu) | + | |
| - | + | ||
| - | Příklad 1: Najít všechny výskyty konkrétního frazému (například | + | |
| V " | V " | ||
| - | [lemma=%%" | + | '' |
| - | [lemma=%%" | + | '' |
| - | V " | + | Ve frazeologicky označkovaném |
| - | '' | + | '' |
| - | Chceme-li nalézt všechny rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz: [col_lemma=%%" | + | Chceme-li nalézt všechna rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz '' |
| {{: | {{: | ||
| - | Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, | + | Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, zadáme-li dotaz '' |
| - | **2.Vyhledání všech výskytů daného slova v automaticky označených frazémech** (dle formy) | + | ===== Hledání podle části frazému ===== |
| - | Příklad 2: Najít | + | Úkol: Najděte |
| - | '' | + | Řešení: |
| {{: | {{: | ||
| - | **3. Přirovnání s konkrétním tvarem slova** (vyhledávání dle formy a slovního druhu) | + | ===== Hledání přirovnání s konkrétním tvarem slova ===== |
| - | Příklad 3: | ||
| - | Najděte v korpusu všechna přirovnání, | ||
| + | Úkol: Najděte v korpusu všechna přirovnání, | ||
| + | |||
| + | Řešení: \\ | ||
| '' | '' | ||
| '' | '' | ||
| Řádek 222: | Řádek 43: | ||
| {{: | {{: | ||
| - | **4. Slovesná | + | ===== Hledání slovesné |
| - | Příklad 4: | + | Úkol: Vyhledejte všechny slovesné frazémy |
| - | Vyhledejte všechny slovesné frazémy | + | |
| - | '' | + | Řešení: |
| {{: | {{: | ||
| - | **5. Nominální | + | ===== Hledání nominální |
| - | Příklad 5: | + | Úkol: Nalezněte ustálené spojení se substantivem, |
| - | Nalezněte ustálené spojení se substantivem, | + | |
| - | (//černá komedie//, //černá skládka//, //černá Afrika//) | + | |
| - | '' | + | Řešení: |
| - | Porovnáme-li výsledek s dotazem | + | {{: |
| - | [lemma=%%" | + | |
| - | {{: | + | Porovnáme-li výsledky s dotazem '' |
| + | {{: | ||
| - | **6. Vyhledání všech frazeologických užití daného paradigmatu** (vyhledání podle lemmatu) | ||
| - | Příklad 6: | + | ===== Hledání |
| - | Vyhledejte | + | |
| - | '' | + | |
| + | Úkol: Vyhledejte všechny frazémy, jejichž součástí je sloveso // | ||
| + | |||
| + | Řešení: | ||
| {{: | {{: | ||
| - | **7. Vyhledávání | + | ===== Hledání |
| - | Zajímavá jsou i slovnědruhová složení některých frazémů. | + | |
| - | Příklad 7: Najděte v korpusu přísloví, | + | Úkol: Najděte v korpusu přísloví, |
| - | [číslovka] | + | |
| - | '' | + | Řešení: |
| {{: | {{: | ||
| - | Příklad 8: Případy, kdy v některém z frazémů | + | Úkol: Vyhledejte případy, kdy je v některém z frazémů porušeno gramatické pravidlo, že předložka nepředchází před slovesem. |
| - | '' | + | Řešení: |
| - | V korpusu SYN2015 | + | Zobrazí |