Toto je starší verze dokumentu!
Obsah
Case-sensitive versus case-insensitive
Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo se k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou velká a malá písmena brána jako tentýž znak (slova les, LES, Les či leS jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílné jednotky.
Case-insensitive analýzu si tak můžeme představit jako analýzu, které předchází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - typů, jejich frekvence, třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup).
Vyhledávání
To, zda vyhledáváme case-sensitive nebo case-insensitive záleží na typu dotazu i na použitém pozičnímatributu. Standardní nastavení jsou tato:
Typ dotazu
Typ | Nastavení |
---|---|
Základní | case-insensitive |
Lemma | case-insensitive1) |
Fráze | case-sensitive |
Slovní tvar | case-insensitive2) |
Podřetězec | case-sensitive |
CQL | case-sensitive |
V případě CQL dotazu je možné case-insensitive hledání zadat pomocí speciální struktury (?i)
. Pokud tato značka v CQL dotazu předchází hodnotu, bude dotaz vyhodnocen bez ohledu na velikost písmen, např. [word=„(?i)nový“] najde jak slovo nový, tak podobu Nový.
Typ atributu
Typ | Nastavení |
---|---|
word | case-sensitive |
lemma | case-insensitive3) |
tag | case-sensitive |
lc | case-insensitive |
Atribut lc
je přímo vyhrazen na hledání bez shody velikosti písmen, ostatní atributy s výjimkou lemmatu, které rozlišuje propriální a apelativní jednotky, jsou case-sensitive.
Příklady
Atribut word je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka).
Lemmata jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi - velkými písmeny). V korpusech ČNK je ovšem zaveden úzus, že lemmata s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum nový vs. vlastní jméno Nový).