Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:regularni_vyrazy [2018/08/08 10:18] – [Vyzkoušejte si na závěr] michalskrabal | kurz:regularni_vyrazy [2021/01/06 18:49] – [Sekvence libovolných znaků] michalskrabal |
---|
Začněme tím nejuniverzálnějším znakem, tedy tečkou (''.''), která zastupuje právě jeden libovolný znak. Jakékoliv třípísmenné slovo tak lze v KonTextu najít (mimo jiné) pomocí sekvence tří teček za sebou (''<nowiki>...</nowiki>''). Zadáme-li takový dotaz jako **Slovní tvar**, zobrazí se ve výsledku slova jako: //ale, pro, tak, jak// apod. | Začněme tím nejuniverzálnějším znakem, tedy tečkou (''.''), která zastupuje právě jeden libovolný znak. Jakékoliv třípísmenné slovo tak lze v KonTextu najít (mimo jiné) pomocí sekvence tří teček za sebou (''<nowiki>...</nowiki>''). Zadáme-li takový dotaz jako **Slovní tvar**, zobrazí se ve výsledku slova jako: //ale, pro, tak, jak// apod. |
| |
<WRAP round important 50%> | <WRAP round info 50%> |
Hledáme-li tečku jakožto interpunkční znaménko, využijeme zpětné lomítko (více [[regularni_vyrazy#dalsi_specialni_symboly|viz níže]]). Dotaz pak bude vypadat takto: ''\.'' | Hledáme-li tečku jakožto interpunkční znaménko, využijeme zpětné lomítko (více [[regularni_vyrazy#dalsi_specialni_symboly|viz níže]]). Dotaz pak bude vypadat takto: ''\.'' |
</WRAP> | </WRAP> |
| |
[{{ frekvdistr_vedom.png?250|Frekvenční distribuce deseti nejčastějších lemmat získaných díky tečce a hvězdičce}}] | [{{ frekvdistr_vedom.png?250|Frekvenční distribuce deseti nejčastějších lemmat získaných díky tečce a hvězdičce}}] |
| FIXME! NESEDÍ VÝSLEDKY!? |
| |
Nejmocnější kombinací je vyhledání libovolného počtu opakování libovolných znaků, tj. ''.*'' (tečka a hvězdička). Ta může reprezentovat celé slovo nebo jeho libovolnou část. Proto není vhodné zadávat samotný dotaz ''.*'', není-li to nutné, protože výsledkem zdlouhavého a výpočetně náročného hledání budou všechna slova v daném korpusu. | Nejmocnější kombinací je vyhledání libovolného počtu opakování libovolných znaků, tj. ''.*'' (tečka a hvězdička). Ta může reprezentovat celé slovo nebo jeho libovolnou část. Proto není vhodné zadávat samotný dotaz ''.*'', není-li to nutné, protože výsledkem zdlouhavého a výpočetně náročného hledání budou všechna slova v daném korpusu. |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
* Vyhledejte v korpusu [[cnk:syn2015|SYN2010]] v typu dotazu **Slovní tvar** řetězec znaků ''.*vědom.*''. | * Vyhledejte v korpusu [[cnk:syn2015|SYN2010]] v jednoduchém typu dotazu řetězec znaků ''.*vědom.*'' (je zapotřebí zapnout možnost **Povolit regulární výrazy**!). |
* Zobrazte si frekvenční distribuci takto identifikovaných lemmat a výsledný frekvenční seznam si uložte. | * Zobrazte si frekvenční distribuci takto identifikovaných lemmat a výsledný frekvenční seznam si uložte. |
</WRAP> | </WRAP> |