AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Case-sensitive versus case-insensitive

Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo se k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou velká a malá písmena brána jako tentýž znak (slova les, LES, Les či leS jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílné jednotky.

Case-insensitive analýzu si tak můžeme představit jako analýzu, které předchází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - typů, jejich frekvence, třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup).

Vyhledávání

To, zda vyhledáváme case-sensitive nebo case-insensitive záleží na typu dotazu i na použitém atributu.

Příklady

Atribut word je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka).

Lemmata jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi - velkými písmeny). V korpusech ČNK je ovšem zaveden úzus, že lemmata s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum nový vs. vlastní jméno Nový).

Souvísející odkazy

LemmaWord