Obsah
Case-sensitive versus case-insensitive
Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo se k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou velká a malá písmena brána jako tentýž znak (slova les, LES, Les či leS jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílné jednotky.
Case-insensitive analýzu si tak můžeme představit jako analýzu, které předchází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - typů, jejich frekvence, třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup).
Vyhledávání
To, zda vyhledáváme case-sensitive nebo case-insensitive, záleží na typu dotazu i na použitém pozičním atributu. Standardní nastavení jsou tato:
Typ dotazu
Typ | Nastavení |
---|---|
Základní | case-insensitive |
Lemma | case-insensitive1) |
Fráze | case-sensitive |
Slovní tvar | case-insensitive2) |
Část slova | case-sensitive |
CQL | case-sensitive |
V případě CQL dotazu je možné case-insensitive hledání zadat pomocí speciální struktury (?i)
. Pokud tato značka v CQL dotazu předchází hodnotu, bude dotaz vyhodnocen bez ohledu na velikost písmen, např. [word="(?i)nový"]
najde jak slovo nový, tak podobu Nový nebo NOVÝ.
Typ atributu
Typ | Nastavení |
---|---|
word | case-sensitive |
lemma | case-insensitive3) |
tag/pos | case-sensitive |
lc | case-insensitive |
Atribut lc
je přímo vyhrazen na hledání bez shody velikosti písmen, vyhledává tedy stejně jako atribut word
, pouze nedbá na rozdíl ve velikosti písmen. Dotazy [word="(?i)les"]
a [lc="les"]
je tak možné považovat za ekvivalentní. Lemma
obvykle vyhledává všechny tvary daného paradigmatu bez ohledu na velikost písmen, tzn. lemma les najde les, Les, lesu, LESU, lesEM atp. Lemmata, která představují vlastní jména (např. Cheb, Chlumská, Audi atp.), se zadávají s velkým počátečním písmenem, vyhledání je ovšem rovněž case-insensitive (ve výsledku se můžou objevit formy CHEB, Chebu, CHEBu apod.). Ostatní atributy jsou case-sensitive.
Příklady
Atribut word je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka).
Lemmata jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi - velkými písmeny). V korpusech ČNK je ovšem zaveden úzus, že lemmata s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum nový vs. vlastní jméno Nový).