Toto je starší verze dokumentu!
Case-sensitive versus case-insensitive
Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo se k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou velká a malá písmena brána jako tentýž znak (slova les, LES, Les či leS jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílné jednotky.
Case-insensitive analýzu si tak můžeme představit jako analýzu, které předchází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - typů, jejich frekvence, třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup).
Příklady
Atribut word je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka).
Lemmata jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi - velkými písmeny). V korpusech ČNK je ovšem zaveden úzus, že lemmata s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum nový vs. vlastní jméno Nový).