pojmy:case-sensitive

Case-sensitive versus case-insensitive

Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo se k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou velká a malá písmena brána jako tentýž znak (slova les, LES, Les či leS jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílné jednotky.

Case-insensitive analýzu si tak můžeme představit jako analýzu, které předchází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - typů, jejich frekvence, třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup).

Vyhledávání

To, zda vyhledáváme case-sensitive nebo case-insensitive, záleží na typu dotazu i na použitém pozičním atributu. Standardní nastavení jsou tato:

Typ dotazu

Typ	Nastavení
Základní	case-insensitive
Lemma	case-insensitive¹⁾
Fráze	case-sensitive
Slovní tvar	case-insensitive²⁾
Část slova	case-sensitive
CQL	case-sensitive

V případě CQL dotazu je možné case-insensitive hledání zadat pomocí speciální struktury (?i). Pokud tato značka v CQL dotazu předchází hodnotu, bude dotaz vyhodnocen bez ohledu na velikost písmen, např. [word="(?i)nový"] najde jak slovo nový, tak podobu Nový nebo NOVÝ.

Typ atributu

Typ	Nastavení
word	case-sensitive
lemma	case-insensitive³⁾
tag/pos	case-sensitive
lc	case-insensitive

Atribut lc je přímo vyhrazen na hledání bez shody velikosti písmen, vyhledává tedy stejně jako atribut word, pouze nedbá na rozdíl ve velikosti písmen. Dotazy [word="(?i)les"] a [lc="les"] je tak možné považovat za ekvivalentní. Lemma obvykle vyhledává všechny tvary daného paradigmatu bez ohledu na velikost písmen, tzn. lemma les najde les, Les, lesu, LESU, lesEM atp. Lemmata, která představují vlastní jména (např. Cheb, Chlumská, Audi atp.), se zadávají s velkým počátečním písmenem, vyhledání je ovšem rovněž case-insensitive (ve výsledku se můžou objevit formy CHEB, Chebu, CHEBu apod.). Ostatní atributy jsou case-sensitive.

Příklady

Atribut word je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka).

Lemmata jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi - velkými písmeny). V korpusech ČNK je ovšem zaveden úzus, že lemmata s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum nový vs. vlastní jméno Nový).

Souvísející odkazy

¹⁾

Platí ovšem, že propriální lemmata mají velké počáteční písmeno, např. Praha.

²⁾

Tuto volbu je možné ve formuláři přepnout.

³⁾

Apelativní lemmata se vyhodnocují bez ohledu na malá a velká písmena, propriální lemmata mají první počáteční písmeno velké, např. Liberec.