====== N-gram (bigram, trigram...) ====== Jako n-gram se označuje prosté sřetězení, posloupnost //n// jednotek stejného druhu (písmen, častěji však slov) v textu. Mezi členy n-gramu se automaticky nepředpokládá lingvistický vztah. O n-gramech se mluví většinou jako o [[pojmy:typ|typech]], při jejich popisu tedy není zkoumána jejich konkrétní realizace, ale celková [[pojmy:frekvence|frekvence]], příp. distribuce v textech atp. Studium n-gramů je výrazem snahy objevovat v textu opakovaně se vyskytující shluky jednotek, které mají [[http://en.wikipedia.org/wiki/Langue_and_parole|languovou]] povahu (srov. [[pojmy:kolokace|kolokace]], [[pojmy:corpus_driven|corpus-driven přístup]]). Bigramy jsou tak v základu zkoumání [[pojmy:kolokace|kolokací]] (ačkoli i kolokace mohou být více než dvouslovné). Bigram se od kolokace liší především v tom, že jednotlivé členy bigramu nemusí být provázané a celá kombinace nemusí být ustálená. Každá kolokace je tedy vždy zároveň bigramem, kdežto bigram nutně nemusí být kolokací (srov. nejčastější bigram //jak se//). Trigramy, tetragramy apod. vznikají sřetězením více slov, jejich frekventovaný souvýskyt značí ustálenou jednotku, jejíž význam může vyjadřovat celou propozici (//zdálo se mi, že; jsem si myslel, že; podíval jsem se na; to je v pořádku// apod.). ==== Související odkazy ==== [[pojmy:kolokace|Kolokace]] • [[pojmy:koligace|Koligace]] • [[manualy:kontext:frekvencni_distribuce|Frekvenční distribuce]] • [[pojmy:bundles|Lexical bundles]]