Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze | ||
kurz:hledani_frazemy [2018/08/13 13:30] – vytvořeno vaclavcvrcek | kurz:hledani_frazemy [2021/02/09 13:56] (aktuální) – jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== | + | ====== |
- | ===== Základní pojmy ===== | + | Níže uvádíme několik příkladů využití [[seznamy: |
- | ==== Frazém | + | ===== Hledání podle kolokačního lemmatu ===== |
- | [[pojmy:frazem|Frazém]] nelze zpravidla vymezit jedinou vlastností, | + | Úkol: Najděte všechny výskyty konkrétního |
- | + | ||
- | Formálně je frazém ustálená diskrétní jednotka (na většině úrovní komponentů) tvořená zřetelnou kombinací aspoň dvou komponentů. Zároveň je takováto jednotka i kombinací v různém smyslu anomální, nepravidelnou. Jedním z důsledků ustálenosti frazému je zpravidla i nemožnost vkládat mezi jeho komponenty nějaký externí prvek kontextu. | + | |
- | + | ||
- | Frazém je ustálené spojení slov se samostatným významem, kde přinejmenším jeden z komponentů je omezen právě na toto spojení v daném významu. Idiom je ustálené spojení slov osobité pro jistý jazyk. Kritériem vymezení frazému a idiomu je ustálenost. | + | |
- | + | ||
- | ==== Program automatického vyhledávání frazémů v korpusových datech ==== | + | |
- | + | ||
- | **FRANTA** (<fc # | + | |
- | + | ||
- | === Slovník české frazeologie a idiomatiky === | + | |
- | + | ||
- | + | ||
- | [{{ : | + | |
- | [{{ : | + | |
- | [{{ : | + | |
- | [{{ : | + | |
- | + | ||
- | + | ||
- | Slovník české frazeologie a idiomatiky (SČFI) má dnes čtyři svazky: Přirovnání (1983), | + | |
- | + | ||
- | SČFI obsahuje: frazémy, idiomy a ustálená slovní spojení: složené spojkové výrazy (//a právě proto//, //i přesto že//), | + | |
- | víceslovné částice (//děj se co děj//, //nebo tak něco//), složené předložkové výrazy (//na pokladě//, //tváří v tvář//), přísloví (//všechno zlé je k něčemu dobré//), přirovnání (//jako by někomu z oka vypadl//, //mít hlad jako vlk//), kvazifrazémy (//trpět chorobou//, //obstát v konkurenci// | + | |
- | + | ||
- | Program automatického vyhledávání kolokací (na základě SČFI) pracuje na jednoznačném morfologicky otagovaném textu. Samotná procedura identifikace ustálených kolokací v korpusových datech je součástí složitého procesu automatické morfologické | + | |
- | + | ||
- | Program vyhledávání nesouvislých frazémů umožňuje zadat morfologickou informaci pro jednotlivá slova, proměnnou za lexikální jednotku a určit změnu slovosledu. Je určeno, zda se jedná o souvislé nebo nesouvislé spojení slov, tj. jsou označena místa ve větě, kde se mohou nacházet libovolná slova, která nejsou součástí | + | |
- | + | ||
- | Při zadávání příslušného hesla ustáleného spojení slov do programu je nutný podrobný lingvistický rozbor (na základě vyhledávání v korpusu) s určením specifických podmínek, nutných pro dané výskyty řetězců slov, aby nám aplikace automatického vyhledávání umožnila nalézt různé varianty základního hesla daného ustáleného spojení. | + | |
- | + | ||
- | Automaticky nalezená frazémová slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači Kontext podle dalších atributů **col_lemma** a **col_type** s tímto významem: | + | |
- | + | ||
- | **col_lemma - lemma víceslovné jednotky** (collocation lemma) | + | |
- | + | ||
- | řetězec ve tvaru slovníkového hesla v základním tvaru (nominativ singular, infinitiv apod.), malými písmeny (kromě názvů), slova jsou oddělená podtržítkem | + | |
- | + | ||
- | **col_type - typ víceslovné jednotky** (collocation type) | + | |
- | + | ||
- | dvoupísmenný tag: [JKPMSV][HZ], na 1. pozici tagu je označen druh víceslovné jednotky a 2. pozice slouží pouze pro vyhodnocení frekvence dané kolokace v textu. | + | |
- | + | ||
- | col_type se skládá ze dvou písmen | + | |
- | + | ||
- | ^ 1. pozice: ^^ | + | |
- | | J | víceslovné spojky (word of conjuctions) | | + | |
- | | K | neslovesné kolokace (word of nonverbal collocations) | | + | |
- | | V | slovesné kolokace (word of verbal collocations) | | + | |
- | | P | přirovnání (word of similes) | | + | |
- | | M | přísloví, | + | |
- | | S | větné výrazy (word of sentence expressions) | | + | |
- | ^ 2. pozice: (pouze pro počítání frekvencí označených kolokací) ^^ | + | |
- | | H | hlavní uzel kolokace | | + | |
- | | Z | ostatní uzel kolokace | | + | |
- | + | ||
- | Slova, která nejsou součástí žádné označené kolokace, mají parametry col_lemma a col_type prázdné. | + | |
- | + | ||
- | ==== Klasifikace ustálených spojení ==== | + | |
- | + | ||
- | Tabulky programu Franta obsahují celkem 39 705 různých lemmat kolokací, z toho je 18 998 různých slovesných lemmat kolokací (označení col_type V), 5 179 různých lemmat větných výrazů (označení col_type S), 5 833 různých lemmat přirovnání (označení col_type P), 1 414 různých lemmat přísloví (označení col_type M), celkem 8 249 různých neslovesných lemmat kolokací (označení col_type K) zahrnuje 2 628 různých neslovesných neohebných lemmat kolokací (víceslovné částice, víceslovná adverbiále, | + | |
- | Nejméně zpracované je označení složených spojkových výrazů, dosud se označuje pouze 35 různých lemmat kolokací (označení col_type J) | + | |
- | + | ||
- | TABULKA popis | + | |
- | + | ||
- | ^ 1. pozice \\ col_type ^ 2. pozice \\ col_type ^ význam ^ col_lemma ^ příklad ^ | + | |
- | | J | Z/H* | slovo/ | + | |
- | | K | Z/H* | slovo/ | + | |
- | | V | Z/H* | slovo/ | + | |
- | | P | Z/H* | slovo/ | + | |
- | | M | Z/H* | slovo/ | + | |
- | | S | Z/H* | slovo/ | + | |
- | * označení hlavního slova dané kolokace je pouze z technických důvodů pro vyhodnocení frekvence | + | |
- | + | ||
- | + | ||
- | Jednoduchým dotazem nalezneme všechny označené kolokace (každý označený výskyt víceslovného slovního spojení se zobrazí pouze jednou): | + | |
- | + | ||
- | '' | + | |
- | + | ||
- | {{: | + | |
- | + | ||
- | Naopak dotazem '' | + | |
- | + | ||
- | + | ||
- | + | ||
- | **Zástupná slova v kolokačním lemmatu col_lemma** | + | |
- | + | ||
- | 1. Označení slovního druhu | + | |
- | + | ||
- | Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), | + | |
- | + | ||
- | A - nahrazuje libovolné adjektivum | + | |
- | N - nahrazuje libovolné substantivum | + | |
- | V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném | + | |
- | + | ||
- | Příklady: | + | |
- | col_lemma=%%" | + | |
- | //Svaly v obličeji jsem měl <fc # | + | |
- | + | ||
- | col_lemma=%%" | + | |
- | //Tomu se říká <fc # | + | |
- | col_lemma=%%" | + | |
- | // | + | |
- | + | ||
- | col_lemma=%%" | + | |
- | //Policista to všecko <fc # | + | |
- | + | ||
- | 2. Zástupné sloveso **dělat** | + | |
- | + | ||
- | col_lemma=%%" | + | |
- | //Jeden obraz <fc # | + | |
- | + | ||
- | 3. Zástupné slovo **něco, nějaký** apod. | + | |
- | + | ||
- | col_lemma=%%" | + | |
- | //Můžete milovat někoho, s kým jste prožili – v <fc # | + | |
- | + | ||
- | col_lemma=%%" | + | |
- | //... ten poslední v Sušici letos na jaře se hrál za <fc # | + | |
- | + | ||
- | + | ||
- | V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem: | + | |
- | + | ||
- | col_lemma=%%" | + | |
- | //Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// | + | |
- | + | ||
- | + | ||
- | + | ||
- | <fs large> | + | |
- | + | ||
- | **Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené? | + | |
- | + | ||
- | A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu | + | |
- | + | ||
- | B) Text je chybně morfologicky diasmbiguovaný, | + | |
- | + | ||
- | C) příslušná kolokace nebyla zařazeno do programu identifikace, | + | |
- | + | ||
- | **Jaké je riziko, že označené výskyty nejsou frazeologické? | + | |
- | + | ||
- | Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, | + | |
- | + | ||
- | Pozor tedy na **frazeologický** a **doslovný** význam slova:\\ | + | |
- | frazeologizmus popisující | + | |
- | - col_lemma=" | + | |
- | //Po odjezdu policistů <fc # | + | |
- | + | ||
- | Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:\\ | + | |
- | //Kocour <fc # | + | |
- | + | ||
- | Oproti tomu ustálené slovní spojení: | + | |
- | col_lemma=" | + | |
- | //Už ráno bylo zřejmé, že ODS <fc # | + | |
- | + | ||
- | se v textu častěji používá v doslovném významu: | + | |
- | // | + | |
- | + | ||
- | **Chybovost automatického označování frazémů.** | + | |
- | + | ||
- | Automatické označování ustálených kolokací probíhá | + | |
- | + | ||
- | //Kdy jindy by se <fc # | + | |
- | //V březnu roku 1872 <fc # | + | |
- | //... každý, kdo <fc # | + | |
- | // | + | |
- | //<fc # | + | |
- | // | + | |
- | //... v demokratické společnosti | + | |
- | + | ||
- | Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, | + | |
- | + | ||
- | //... koneckonců <fc # | + | |
- | //<fc # | + | |
- | . | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | <fs large> | + | |
- | Problémy vyhledávání obtížných typů a jevů | + | |
- | + | ||
- | **1.Vyhledání konkrétního ustáleného slovního spojení** (dle kolokačního lemmatu) | + | |
- | + | ||
- | Příklad 1: Najít všechny výskyty konkrétního frazému (například | + | |
V " | V " | ||
- | [lemma=%%" | + | '' |
- | [lemma=%%" | + | '' |
- | V " | + | Ve frazeologicky označkovaném |
- | '' | + | '' |
- | Chceme-li nalézt všechny rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz: [col_lemma=%%" | + | Chceme-li nalézt všechna rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz '' |
{{: | {{: | ||
- | Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, | + | Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, zadáme-li dotaz '' |
- | **2.Vyhledání všech výskytů daného slova v automaticky označených frazémech** (dle formy) | + | ===== Hledání podle části frazému ===== |
- | Příklad 2: Najít | + | Úkol: Najděte |
- | '' | + | Řešení: |
{{: | {{: | ||
- | **3. Přirovnání s konkrétním tvarem slova** (vyhledávání dle formy a slovního druhu) | + | ===== Hledání přirovnání s konkrétním tvarem slova ===== |
- | Příklad 3: | ||
- | Najděte v korpusu všechna přirovnání, | ||
+ | Úkol: Najděte v korpusu všechna přirovnání, | ||
+ | |||
+ | Řešení: \\ | ||
'' | '' | ||
'' | '' | ||
Řádek 222: | Řádek 43: | ||
{{: | {{: | ||
- | **4. Slovesná | + | ===== Hledání slovesné |
- | Příklad 4: | + | Úkol: Vyhledejte všechny slovesné frazémy |
- | Vyhledejte všechny slovesné frazémy | + | |
- | '' | + | Řešení: |
{{: | {{: | ||
- | **5. Nominální | + | ===== Hledání nominální |
- | Příklad 5: | + | Úkol: Nalezněte ustálené spojení se substantivem, |
- | Nalezněte ustálené spojení se substantivem, | + | |
- | (//černá komedie//, //černá skládka//, //černá Afrika//) | + | |
- | '' | + | Řešení: |
- | Porovnáme-li výsledek s dotazem | + | {{: |
- | [lemma=%%" | + | |
- | {{: | + | Porovnáme-li výsledky s dotazem '' |
+ | {{: | ||
- | **6. Vyhledání všech frazeologických užití daného paradigmatu** (vyhledání podle lemmatu) | ||
- | Příklad 6: | + | ===== Hledání |
- | Vyhledejte | + | |
- | '' | + | |
+ | Úkol: Vyhledejte všechny frazémy, jejichž součástí je sloveso // | ||
+ | |||
+ | Řešení: | ||
{{: | {{: | ||
- | **7. Vyhledávání | + | ===== Hledání |
- | Zajímavá jsou i slovnědruhová složení některých frazémů. | + | |
- | Příklad 7: Najděte v korpusu přísloví, | + | Úkol: Najděte v korpusu přísloví, |
- | [číslovka] | + | |
- | '' | + | Řešení: |
{{: | {{: | ||
- | Příklad 8: Případy, kdy v některém z frazémů | + | Úkol: Vyhledejte případy, kdy je v některém z frazémů porušeno gramatické pravidlo, že předložka nepředchází před slovesem. |
- | '' | + | Řešení: |
- | V korpusu SYN2015 | + | Zobrazí |