AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:regularni_vyrazy [2024/10/07 11:01] – [Další speciální symboly] michalkrenkurz:regularni_vyrazy [2024/10/07 11:18] (aktuální) – [Kategorie znaků unicodu] michalkren
Řádek 134: Řádek 134:
  
 Jednotlivé znaky v řetězci je také možné zastoupit pomocí definovaných [[https://en.wikipedia.org/wiki/Unicode_character_property#General_Category|kategorií znaků unicodu]]. Na pozici jednoho znaku se ve výrazu uvede šablona ''\p{  }'', v níž se mezi složené závorky uvede požadovaná kategorie. Pro vyhledávání v korpusu jsou patrně nejužitečnější kategorie velkých (''Lu'') a malých (''Ll'') písmen uvnitř nadřazené kategorie písmen (''L''). Např. zadání ''\p{Lu}'' tak vyhledá libovolné velké písmeno. Je ale také možné vyhledávat znaky všech typů závorek, uvozovek, interpunkci aj. Další kategorie jsou uvedeny např. [[https://www.regular-expressions.info/unicode.html|zde pod nadpisem Unicode Categories]].  Jednotlivé znaky v řetězci je také možné zastoupit pomocí definovaných [[https://en.wikipedia.org/wiki/Unicode_character_property#General_Category|kategorií znaků unicodu]]. Na pozici jednoho znaku se ve výrazu uvede šablona ''\p{  }'', v níž se mezi složené závorky uvede požadovaná kategorie. Pro vyhledávání v korpusu jsou patrně nejužitečnější kategorie velkých (''Lu'') a malých (''Ll'') písmen uvnitř nadřazené kategorie písmen (''L''). Např. zadání ''\p{Lu}'' tak vyhledá libovolné velké písmeno. Je ale také možné vyhledávat znaky všech typů závorek, uvozovek, interpunkci aj. Další kategorie jsou uvedeny např. [[https://www.regular-expressions.info/unicode.html|zde pod nadpisem Unicode Categories]]. 
 +
 +<WRAP round important 50%>
 +Upozornění: ''\p{Lu}'' **//není totéž//** co ''[A-Z]''. Zatímco unicodová kategorie pro velká písmena je obecně platná pro všechny jazyky a abecedy (a zahrnuje tedy např. "Á", "Ü" nebo "Ž"), znakové třídě ''[A-Z]'' odpovídá jen 26 velkých písmen anglické abecedy bez diakritických znamének (a tedy např. "Á", "Ü" nebo "Ž" nezahrnuje)! Důrazně proto doporučujeme vždy, když potřebujete pracovat s rozsahem písmen, používat unicodové kategorie.
 +</WRAP>
  
 Kategorie unicodu lze libovolně kombinovat s regulárními výrazy: Kategorie unicodu lze libovolně kombinovat s regulárními výrazy: