Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:regularni_vyrazy [2018/08/08 10:03] – [Kvantifikátory] michalskrabal | kurz:regularni_vyrazy [2018/08/08 10:16] – [Další speciální symboly] michalskrabal |
---|
| ''ps*t'' | 336 | //pst// (141), //pt// (76), //psst// (64), //pssst// (47), //psssst// (6), //psssssssst// (1), //pssssst// (1) | | | ''ps*t'' | 336 | //pst// (141), //pt// (76), //psst// (64), //pssst// (47), //psssst// (6), //psssssssst// (1), //pssssst// (1) | |
| ''ps+t'' | 260 | //pst// (141), //psst// (64), //pssst// (47), //psssst// (6), //psssssssst// (1), //pssssst// (1) | | | ''ps+t'' | 260 | //pst// (141), //psst// (64), //pssst// (47), //psssst// (6), //psssssssst// (1), //pssssst// (1) | |
| ''cha(cha)?'' | 331 | //cha// (300), //chacha// (31) | | | ''cha(cha)?'' | 371 | //cha// (316), //chacha// (55) | |
| ''cha(cha)*'' | 364 | //cha// (300), //chacha// (31), //chachacha// (31), //chachachacha// (2) | | | ''cha(cha)*'' | 395 | //cha// (316), //chacha// (55), //chachacha// (18), //chachachacha// (2), //chachachachacha// (2), //chachachachachacha// (1), //chachachachachachachachachachachacha// (1) | |
| ''cha(cha)+'' | 64 | //chacha// (31), //chachacha// (31), //chachachacha// (2) | | | ''cha(cha)+'' | 79 | //chacha// (55), //chachacha// (18), //chachachacha// (2), //chachachachacha// (2), //chachachachachacha// (1), //chachachachachachachachachachachacha// (1) | |
| |
| |
[{{ :kurz:jestli-oral2013.png?nolink&250|Frekvenční distribuce podob //jestli// v mluveném korpusu}}] | [{{ :kurz:jestli-oral2013.png?nolink&250|Frekvenční distribuce podob //jestli// v mluveném korpusu}}] |
| |
Možná si kladete otázku, jestli se regulární výrazy hodí i pro výzkum zásadnějších jevů než citoslovcí. Je dobré zdůraznit, že se bez nich neobejdeme např. při prohledávání [[pojmy:mluveny|mluvených korpusů]], které zatím nejsou [[pojmy:lemma|lemmatizované]], obrovskou pomocí jsou ale i při vyhledávání v korpusech lemmatizovaných. | Možná si kladete otázku, jestli se regulární výrazy hodí i pro výzkum zásadnějších jevů než citoslovcí. Je dobré zdůraznit, že se bez nich neobejdeme např. při prohledávání [[pojmy:mluveny|mluvených korpusů]], které převážně nejsou [[pojmy:lemma|lemmatizované]], obrovskou pomocí jsou ale i při vyhledávání v korpusech lemmatizovaných. |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
| |
Ve frekvenčním seznamu se ocitly dva překvapivé tvary: //jesti// a //esti//. Pomocí modře označeného **p** ([[manualy:kontext:frekvencni_distribuce#frekvencni_seznam_vypis|pozitivní filtr]]) ve frekvenčním seznamu můžeme hned zkontrolovat, zda jde o námi hledaný význam (v obou případech tomu tak je) a nakolik je použití tohoto konkrétního tvaru regionálně či jinak podmíněné (zdá se to být východomoravské specifikum -- 6 případů ze 7, respektive 8 z 9 spadá do této nářeční oblasti). | Ve frekvenčním seznamu se ocitly dva překvapivé tvary: //jesti// a //esti//. Pomocí modře označeného **p** ([[manualy:kontext:frekvencni_distribuce#frekvencni_seznam_vypis|pozitivní filtr]]) ve frekvenčním seznamu můžeme hned zkontrolovat, zda jde o námi hledaný význam (v obou případech tomu tak je) a nakolik je použití tohoto konkrétního tvaru regionálně či jinak podmíněné (zdá se to být východomoravské specifikum -- 6 případů ze 7, respektive 8 z 9 spadá do této nářeční oblasti). |
| |
| Více o specifikách hledání v mluvených korpusech najdete v [[kurz:hledani_v_mluvenych_korpusech|bonusové lekci]]. |
| |
| |
==== Sekvence libovolných znaků ==== | ==== Sekvence libovolných znaků ==== |
| |
</WRAP> | </WRAP> |
| |
Jak kýžená frekvenční distribuce vypadá? Najde veškerá lemmata obsahující daný řetězec znaků (v tomto případě slovní základ //vědom//) a umožní zkoumat nejrůznější typy odvozování, zároveň s územ (reprezentovaným frekvencí). | Jak kýžená frekvenční distribuce vypadá? Najde veškerá lemmata obsahující daný řetězec znaků (v tomto případě slovní základ //vědom//) a umožní zkoumat nejrůznější typy odvozování. |
| |
===== Další speciální symboly ===== | ===== Další speciální symboly ===== |
| **seznam** | ''[ ]'' | alternativa, možnost výběru **jednoho** libovolného znaku ze znaků uvnitř hranatých závorek | v rámci seznamu je možné používat také pomlčku (''-'') jako operátor rozsahu (např. ''[a-z]'', ''[1-9]'') pro alfabetické znaky a číslice | | | **seznam** | ''[ ]'' | alternativa, možnost výběru **jednoho** libovolného znaku ze znaků uvnitř hranatých závorek | v rámci seznamu je možné používat také pomlčku (''-'') jako operátor rozsahu (např. ''[a-z]'', ''[1-9]'') pro alfabetické znaky a číslice | |
| **inverzní seznam** | ''[^ ]'' | výběr **jednoho** libovolného znaku **s výjimkou** znaků uvnitř hranatých závorek | pokud je prvním znakem seznamu stříška (''^''), jde o inverzní seznam: tedy jeden libovolný znak kromě těch uvedených uvnitř hranatých závorek | | | **inverzní seznam** | ''[^ ]'' | výběr **jednoho** libovolného znaku **s výjimkou** znaků uvnitř hranatých závorek | pokud je prvním znakem seznamu stříška (''^''), jde o inverzní seznam: tedy jeden libovolný znak kromě těch uvedených uvnitř hranatých závorek | |
| **svislá čára** | ''|'' | alternativa, ovšem ne jenom mezi jednotlivými znaky, ale mezi celými řetězci tvořícími celek | kombinuje se často s kulatými závorkami, které pomáhají určit prioritu vyhodnocení | | | **svislá čára** | ''|'' | alternativa, ovšem ne jenom mezi jednotlivými znaky, ale mezi řetězci tvořícími celek | kombinuje se často s kulatými závorkami, které pomáhají určit prioritu vyhodnocení | |
| **zpětné lomítko** | ''\'' | pokud předchází speciálnímu znaku, ztrácí daný symbol svůj zvláštní význam | takto lze vyhledávat např. interpunkční znaménka či další speciální znaky v textu | | | **zpětné lomítko** | ''\'' | pokud předchází speciálnímu znaku, ztrácí daný symbol svůj zvláštní význam | takto lze vyhledávat např. interpunkční znaménka či další speciální znaky v textu | |
| |
| |
<WRAP round important 60%> | <WRAP round important 60%> |
Pozor! Význam hranatých závorek je dvojí: | Význam hranatých závorek je dvojí: |
- v rámci regulárních výrazů představují seznam (viz tabulka výše) | - v rámci regulárních výrazů představují seznam (viz tabulka výše) |
- v rámci [[pojmy:cql|CQL]] představují samostatnou pozici, [[pokrocile_dotazy#hlavni_rysy_cql|viz příští lekce]]. | - v rámci [[pojmy:cql|CQL]] představují samostatnou pozici, [[pokrocile_dotazy#hlavni_rysy_cql|viz příští lekce]]. |
</WRAP> | </WRAP> |
| |
| |
=== Příklad dotazu: Adjektiva s prefixem vy- === | |
| |
<WRAP round help 60%> | |
V korpusu [[cnk:oral2013|ORAL2013]] ověřte, jak expanduje prefix //vy-//, a to především u adjektiv. Korpus není lemmatizovaný ani tagovaný, musíme si proto vystačit s hledáním pomocí **Slovního tvaru**. | |
| |
- Nejprve si představte slova s touto předponou: //vykalený//, //vymazlený//, //vytuněný// ... | |
- Rozepište si, jaké mužské koncovky – pro jednoduchost jen tyto – mohou adjektiva (v obou číslech) mít. | |
- Vytvořte dotaz na slovní tvar, u něhož znáte začátek i konec výrazů a hledáte prostřední část. | |
</WRAP> | |
| |
Dotaz mohl vypadat takto nějak: ''vy.+(ý|ej|ma|mi|ho|mu|ých|ejch))''. Konkrétně na tento dostaneme v korpusu ORAL2013 1285 výskytů, nejfrekventovanějšími tvary jsou //vysoký// (111), //vysokej// (67), //vyřešený// (20), //vyřízený// (17), //vyfocený// (16), //vystavený// (16). Sedmý v pořadí (s absolutní frekvencí 16) je word //vyndej//, ten s dalšími slovesnými tvary (//vydržej// 13, //vymejšlej// 9 aj.) hledaným tvarům neodpovídá. V takovýchto případech je nezbytné ruční třídění výsledků (jde o potíž s tzv. [[pojmy:precision|precision a recall]] – jak přesně zformulovaný dotaz položit, aby nevyloučil příliš mnoho dokladů, které nás mohou zajímat). | |
| |
=== Příklad dotazu: Konkurence forem === | === Příklad dotazu: Konkurence forem === |