Skrýt
Nastavení

N-gram (bigram, trigram...)

Jako n-gram se označuje prosté sřetězení, posloupnost n jednotek stejného druhu (písmen, častěji však slov) v textu.

Mezi členy n-gramu se automaticky nepředpokládá lingvistický vztah. O n-gramech se mluví většinou jako o typech, při jejich popisu tedy není zkoumána jejich konkrétní realizace, ale celková frekvence, příp. distribuce v textech atp.

Studium n-gramů je výrazem snahy objevovat v textu opakovaně se vyskytující shluky jednotek, které mají languovou povahu (srov. kolokace, corpus-driven přístup).

Bigramy jsou tak v základu zkoumání kolokací (ačkoli i kolokace mohou být více než dvouslovné). Bigram se od kolokace liší především v tom, že jednotlivé členy bigramu nemusí být provázané a celá kombinace nemusí být ustálená. Každá kolokace je tedy vždy zároveň bigramem, kdežto bigram nutně nemusí být kolokací (srov. nejčastější bigram jak se).

Trigramy, tetragramy apod. vznikají sřetězením více slov, jejich frekventovaný souvýskyt značí ustálenou jednotku, jejíž význam může vyjadřovat celou propozici (zdálo se mi, že; jsem si myslel, že; podíval jsem se na; to je v pořádku apod.).

Související odkazy