| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| pojmy:case-sensitive [2013/08/01 15:58] – vaclavcvrcek | pojmy:case-sensitive [2021/01/18 10:08] (aktuální) – vaclavcvrcek |
|---|
| ====== Case-sensitive versus case-insensitive ====== | ====== Case-sensitive versus case-insensitive ====== |
| |
| Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou traktována velká a malá písmena shodně (slova //les, LES, Les// či //leS// jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílé jednotky. | Analýza textu může být prováděna vždy buď s ohledem na velikost písmen (case-sensitive), nebo se k velkým a malým písmenům přihlížet nemusí (case-insensitive). V případě case-insensitive analýzy jsou velká a malá písmena brána jako tentýž znak (slova //les, LES, Les// či //leS// jsou chápána jako shodná), v případě case-sensitive analýzy je na písmena lišící se velikostí pohlíženo jako na dvě rozdílné jednotky. |
| |
| Case-insensitive analýzu si tak můžeme představit jako analýzu, které předechází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - [[pojmy:typ|typů]], jejich [[pojmy:frekvence|frekvence]], třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup). | Case-insensitive analýzu si tak můžeme představit jako analýzu, které předchází to, že jsme všechna písmena v textu převedli na minuskule (malá písmena). Vyhodnocení takového textu (např. počet různých jednotek - [[pojmy:typ|typů]], jejich [[pojmy:frekvence|frekvence]], třídění apod.) se samozřejmě bude lišit od situace, kdy velikost písmen může rozlišovat slova (case-sensitive přístup). |
| |
| Atribut [[pojmy:word|word]] je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka). | ===== Vyhledávání ===== |
| |
| [[pojmy:lemma|Lemmata]] jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi). V korpusech ČNK je ovšem zaveden úzus, že lemma s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum //nový// vs. vlastní jméno //Nový//). | To, zda vyhledáváme case-sensitive nebo case-insensitive, záleží na [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typu dotazu]] i na použitém pozičním [[pojmy:atributy_pozicni|atributu]]. Standardní nastavení jsou tato: |
| |
| ==== Souvísející odkazy ==== | ==== Typ dotazu ==== |
| |
| [[pojmy:lemma|Lemma]] | ^ Typ ^ Nastavení ^ |
| | ^ Základní | case-insensitive | |
| | ^ Lemma | case-insensitive((Platí ovšem, že propriální lemmata mají velké počáteční písmeno, např. //Praha//.)) | |
| | ^ Fráze | case-sensitive | |
| | ^ Slovní tvar | case-insensitive((Tuto volbu je možné ve formuláři přepnout.)) | |
| | ^ Část slova | case-sensitive | |
| | ^ CQL | case-sensitive | |
| |
| [[pojmy:word|Word]] | V případě [[pojmy:dotazovaci_jazyk|CQL]] dotazu je možné case-insensitive hledání zadat pomocí speciální struktury ''(?i)''. Pokud tato značka v CQL dotazu předchází hodnotu, bude dotaz vyhodnocen bez ohledu na velikost písmen, např. ''[word=%%"(?i)nový"%%]'' najde jak slovo //nový//, tak podobu //Nový// nebo //NOVÝ//. |
| |
| | ==== Typ atributu ==== |
| | |
| | ^ Typ ^ Nastavení ^ |
| | ^ word | case-sensitive | |
| | ^ lemma | case-insensitive((Apelativní lemmata se vyhodnocují bez ohledu na malá a velká písmena, propriální lemmata mají první počáteční písmeno velké, např. //Liberec//.)) | |
| | ^ tag/pos | case-sensitive | |
| | ^ lc | case-insensitive | |
| | |
| | Atribut ''[[pojmy:lc|lc]]'' je přímo vyhrazen na hledání bez shody velikosti písmen, vyhledává tedy stejně jako atribut ''[[pojmy:word|word]]'', pouze nedbá na rozdíl ve velikosti písmen. Dotazy ''[word=%%"(?i)les"%%]'' a ''[lc=%%"les"%%]'' je tak možné považovat za ekvivalentní. ''[[pojmy:lemma|Lemma]]'' obvykle vyhledává všechny tvary daného paradigmatu bez ohledu na velikost písmen, tzn. lemma //les// najde //les, Les, lesu, LESU, lesEM// atp. Lemmata, která představují vlastní jména (např. Cheb, Chlumská, Audi atp.), se zadávají s velkým počátečním písmenem, vyhledání je ovšem rovněž case-insensitive (ve výsledku se můžou objevit formy //CHEB, Chebu, CHEBu// apod.). Ostatní atributy jsou case-sensitive. |
| | |
| | ===== Příklady ===== |
| | |
| | Atribut [[pojmy:word|word]] je tradičně chápaný jako case-sensitive (s výjimkou korpusů, které velikost písmen nezachycují, např. některé korpusy mluveného jazyka). |
| | |
| | [[pojmy:lemma|Lemmata]] jsou tradičně chápána jako case-insensitive jednotky (v historii korpusové lingvistiky byla tradičně zapisována majuskulemi - velkými písmeny). V korpusech ČNK je ovšem zaveden úzus, že lemmata s propriálním významem mají velké počáteční písmeno, zatímco apelativní lemmata mají všechna písmena malá (obecné adjektivum //nový// vs. vlastní jméno //Nový//). |
| | |
| | ==== Souvísející odkazy ==== |
| |
| | <WRAP round box 48%> |
| | [[pojmy:lemma|Lemma]] • [[pojmy:word|Word (slovní tvar)]] • [[pojmy:dotazovaci_jazyk|Dotazovací jazyk]] • [[pojmy:regularni_vyrazy|Regulární výrazy]] |
| | </WRAP> |