AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


N-gram (bigram, trigram...)

Jako n-gram se označuje prosté sřetězení, posloupnost n jednotek stejného druhu (písmen, častěji však slov) v textu.

Mezi členy n-gramu se automaticky nepředpokládá lingvistický vztah. O n-gramech se mluví většinou jako o typech, při jejich popisu tedy není zkoumána jejich konkrétní realizace, ale celková frekvence, příp. distribuce v textech atp.

Studium n-gramů je výrazem snahy objevovat v povrchově pouze syntagmatickém toku textu opakovaně se vyskytující shluky jednotek, které mají languovou povahu (srov. kolokace, corpus-driven přístup).

Bigramy jsou tak v základu zkoumání kolokací (ačkoli i kolokace mohou být více než dvouslovné). Základní odlišnost bigramu od kolokace je fakt jeho neustálené povahy a neprovázanosti členů (každá kolokace je zároveň bigramem, ne každý bigram je ovšem kolokací, srov. nejčastější bigram jak se).

Trigramy, tetragramy apod. vznikají sřetězením více slov, jejich frekventovaný souvýskyt značí ustálenou jednotku, jejíž význam může vyjadřovat celou propozici (zdálo se mi, že; jsem si myslel, že; podíval jsem se na; to je v pořádku apod.).