AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Case-sensitive versus case-insensitive

Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou traktována velká a malá písmena shodně (slova les, LES, Les či leS jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílé jednotky.

Case-insensitive analýzu si tak můžeme představit jako analýzu, které předechází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - typů, jejich frekvence, třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup).

Atribut word je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka).

Lemmata jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi). V korpusech ČNK je ovšem zaveden úzus, že lemma s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum nový vs. vlastní jméno Nový).

Souvísející odkazy