Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:regularni_vyrazy [2018/08/08 10:16] – [Další speciální symboly] michalskrabal | kurz:regularni_vyrazy [2021/01/06 18:49] – [Sekvence libovolných znaků] michalskrabal |
---|
Začněme tím nejuniverzálnějším znakem, tedy tečkou (''.''), která zastupuje právě jeden libovolný znak. Jakékoliv třípísmenné slovo tak lze v KonTextu najít (mimo jiné) pomocí sekvence tří teček za sebou (''<nowiki>...</nowiki>''). Zadáme-li takový dotaz jako **Slovní tvar**, zobrazí se ve výsledku slova jako: //ale, pro, tak, jak// apod. | Začněme tím nejuniverzálnějším znakem, tedy tečkou (''.''), která zastupuje právě jeden libovolný znak. Jakékoliv třípísmenné slovo tak lze v KonTextu najít (mimo jiné) pomocí sekvence tří teček za sebou (''<nowiki>...</nowiki>''). Zadáme-li takový dotaz jako **Slovní tvar**, zobrazí se ve výsledku slova jako: //ale, pro, tak, jak// apod. |
| |
<WRAP round important 50%> | <WRAP round info 50%> |
Hledáme-li tečku jakožto interpunkční znaménko, využijeme zpětné lomítko (více [[regularni_vyrazy#dalsi_specialni_symboly|viz níže]]). Dotaz pak bude vypadat takto: ''\.'' | Hledáme-li tečku jakožto interpunkční znaménko, využijeme zpětné lomítko (více [[regularni_vyrazy#dalsi_specialni_symboly|viz níže]]). Dotaz pak bude vypadat takto: ''\.'' |
</WRAP> | </WRAP> |
| |
[{{ frekvdistr_vedom.png?250|Frekvenční distribuce deseti nejčastějších lemmat získaných díky tečce a hvězdičce}}] | [{{ frekvdistr_vedom.png?250|Frekvenční distribuce deseti nejčastějších lemmat získaných díky tečce a hvězdičce}}] |
| FIXME! NESEDÍ VÝSLEDKY!? |
| |
Nejmocnější kombinací je vyhledání libovolného počtu opakování libovolných znaků, tj. ''.*'' (tečka a hvězdička). Ta může reprezentovat celé slovo nebo jeho libovolnou část. Proto není vhodné zadávat samotný dotaz ''.*'', není-li to nutné, protože výsledkem zdlouhavého a výpočetně náročného hledání budou všechna slova v daném korpusu. | Nejmocnější kombinací je vyhledání libovolného počtu opakování libovolných znaků, tj. ''.*'' (tečka a hvězdička). Ta může reprezentovat celé slovo nebo jeho libovolnou část. Proto není vhodné zadávat samotný dotaz ''.*'', není-li to nutné, protože výsledkem zdlouhavého a výpočetně náročného hledání budou všechna slova v daném korpusu. |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
* Vyhledejte v korpusu [[cnk:syn2015|SYN2010]] v typu dotazu **Slovní tvar** řetězec znaků ''.*vědom.*''. | * Vyhledejte v korpusu [[cnk:syn2015|SYN2010]] v jednoduchém typu dotazu řetězec znaků ''.*vědom.*'' (je zapotřebí zapnout možnost **Povolit regulární výrazy**!). |
* Zobrazte si frekvenční distribuci takto identifikovaných lemmat a výsledný frekvenční seznam si uložte. | * Zobrazte si frekvenční distribuci takto identifikovaných lemmat a výsledný frekvenční seznam si uložte. |
</WRAP> | </WRAP> |
V korpusu [[cnk:syn2015|SYN2015]] najděte: | V korpusu [[cnk:syn2015|SYN2015]] najděte: |
- pomocí dotazu typu **Lemma** všechna slova, která obsahují sekvenci //kořen//, kterou následuje i předchází alespoň jeden znak (typicky předpona a přípona) | - pomocí dotazu typu **Lemma** všechna slova, která obsahují sekvenci //kořen//, kterou následuje i předchází alespoň jeden znak (typicky předpona a přípona) |
- pomocí dotazu na **Slovní tvar** všechny prefigované infinitivy odvozené od slovesa //téct/téci// | - pomocí dotazu typu **Slovní tvar** všechny prefigované infinitivy odvozené od slovesa //téct/téci// |
- všechny výskyty tvarů negativního superlativu, tj. tvary začínající na //nejne-// a končící na //-ší// nebo //-čí// (pro jednoduchost odhlédněme od jiných tvarů, než je nominativ singuláru) | - všechny výskyty tvarů negativního superlativu, tj. tvary začínající na //nejne-// a končící na //-ší// nebo //-čí// (pro jednoduchost odhlédněme od jiných tvarů, než je nominativ singuláru) |
| |