Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
kurz:regularni_vyrazy [2021/03/10 10:11] – [Další speciální symboly] michalskrabal | kurz:regularni_vyrazy [2021/03/10 11:59] – jankocek |
---|
| |
| |
[{{ :kurz:jestli-oral2013.png?nolink&direct&250|Frekvenční distribuce podob //jestli// v mluveném korpusu}}] | Možná si kladete otázku, jestli se regulární výrazy hodí i pro výzkum zásadnějších jevů než citoslovcí. Je dobré zdůraznit, že se bez nich neobejdeme např. při prohledávání [[pojmy:mluveny|mluvených korpusů]], které ne vždy bývají [[pojmy:lemma|lemmatizované]], obrovskou pomocí jsou ale i při vyhledávání v korpusech lemmatizovaných. |
| |
Možná si kladete otázku, jestli se regulární výrazy hodí i pro výzkum zásadnějších jevů než citoslovcí. Je dobré zdůraznit, že se bez nich neobejdeme např. při prohledávání [[pojmy:mluveny|mluvených korpusů]], které převážně nejsou [[pojmy:lemma|lemmatizované]], obrovskou pomocí jsou ale i při vyhledávání v korpusech lemmatizovaných. | |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
Zkuste v korpusu [[cnk:oral2013|ORAL2013]] nalézt co nejvíc různých podob výrazu //jestli//. | Zkusme si v jednom takovém nelematizovaném korpusu -- [[cnk:oral2013|ORAL2013]] -- najít co nejvíc různých podob výrazu //jestli//. |
- Zamyslete se nad tím, která písmena se při hovoru vynechávají, a lexém přesto zůstává srozumitelný. | - Nejprve se zamyslete nad tím, která písmena se při hovoru vynechávají, a lexém přesto zůstává srozumitelný. |
- Zformulujte dotaz (drobná nápověda: vystačíte si pouze s písmeny a otazníky). | - Zformulujte dotaz (drobná nápověda: vystačíte si pouze s písmeny a otazníky). |
- Zobrazte si frekvenční distribuci. | - Zobrazte si frekvenční distribuci. |
</WRAP> | </WRAP> |
| |
Stejně jako u většiny úloh s regulárními výrazy i v tomto případě existuje více postupů, jak se dobrat ke stejnému výsledku. V každém případě nám může pomoct [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_„slovo|vyhledávač variant v korpusech řady ORAL]]. Pro řešení této výzkumné otázky využijeme z regulárních výrazů nejvíc symbol ''?'', který pomůže specifikovat, které segmenty se ve slově nemusejí vždy vyskytovat. | Stejně jako u většiny úloh s regulárními výrazy i v tomto případě existuje více postupů, jak se dobrat ke stejnému výsledku. My jsme si vybrali ten využívající symbol ''?'', který specifikuje, které segmenty se ve slově **nemusejí** vždy vyskytovat. Zápis je takovýto: ''j?est?l?i'' (tzn. předpokládáme, že zredukovat lze hlásky //j//, //t// a //l//) a výsledek tento: |
| |
| [{{:kurz:jestli-frekvence.png?direct&300|Frekvenční distribuce podob //jestli// v korpusu ORAL2013}}] |
| |
Ve frekvenčním seznamu se ocitly dva překvapivé tvary: //jesti// a //esti//. Pomocí modře označeného **p** ([[manualy:kontext:frekvencni_distribuce#frekvencni_seznam_vypis|pozitivní filtr]]) ve frekvenčním seznamu můžeme hned zkontrolovat, zda jde o námi hledaný význam (v obou případech tomu tak je) a nakolik je použití tohoto konkrétního tvaru regionálně či jinak podmíněné (zdá se to být východomoravské specifikum -- 6 případů ze 7, respektive 8 z 9 spadá do této nářeční oblasti). FIXME | Ve frekvenčním seznamu se ocitly dva překvapivé tvary: //jesti// a //esti//. Pomocí modře označeného **p** ([[manualy:kontext:frekvencni_distribuce#frekvencni_seznam_vypis|pozitivní filtr]]) ve frekvenčním seznamu můžeme hned zkontrolovat, zda jde o námi hledaný význam (v obou případech tomu tak je) a nakolik je použití tohoto konkrétního tvaru regionálně či jinak podmíněné (zdá se to být východomoravské specifikum -- 6 případů ze 7, respektive 8 z 9 spadá do této nářeční oblasti). |
| |
Více o specifikách hledání v mluvených korpusech najdete v [[kurz:hledani_v_mluvenych_korpusech|bonusové lekci]]. | Více o specifikách hledání v mluvených korpusech najdete v [[kurz:hledani_v_mluvenych_korpusech|bonusové lekci]]. |
^ Dotaz ^ Výsledek ^ | ^ Dotaz ^ Výsledek ^ |
|''b[iy]l.*''|všechna slova začínající na //bil// nebo //byl//| | |''b[iy]l.*''|všechna slova začínající na //bil// nebo //byl//| |
|''b[^iy]l.*''|všechna slova nezačínající na na //bil// nebo /byl/, teda např. //bílý//, //bolest, //bát// aj.| | |''b[^iy]l.*''|všechna slova nezačínající na na //bil// nebo //byl//, teda např. //bílý//, //bolest//, //bát// aj.| |
|''za(ps|sp)ati?''|infinitivy //zapsat(i)// a //zaspat(i)//| | |''za(ps|sp)ati?''|infinitivy //zapsat(i)// a //zaspat(i)//| |
|''\.\!?''|sekvence interpunkčních znamének tečka vykřičník otazník| | |''\.\!?''|sekvence interpunkčních znamének tečka vykřičník otazník| |