AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:typ [2013/06/18 18:25] vaclavcvrcekpojmy:typ [2022/12/19 15:38] (aktuální) vaclavcvrcek
Řádek 1: Řádek 1:
 ====== Typ (type) ====== ====== Typ (type) ======
  
-Z hlediska korpusové lingvistiky je typ/type jednotka abstrakce, která vzniká v opozici k pojmu [[pojmy:token|token]]. Zatímco tokenem se míní vždy konkrétní realizace jednotky (konkrétní výskyt formy) v určitém kontextu; **typ** je jednotka dekontextualizovaná, která je schopna nabývat takových vlastností, jako je frekvence. Zatímco velikost korpusu je udávána v počtu tokenů (označuje se většinou jako //N//), počet typů značí množství **různých** jednotek v korpusu (označuje se většinou //V// = vocabulary). Typ může být v podstatě libovolná jednotka, nejčastěji se ovšem v této souvislosti uvažuje o [[pojmy:word|slovním tvaru]] nebo [[pojmy:lemma|lemmatu]].+Z hlediska korpusové lingvistiky je typ/type jednotka abstrakce, která vzniká v opozici k pojmu [[pojmy:token|token]]. Zatímco tokenem se míní vždy konkrétní realizace jednotky (konkrétní výskyt formy) v určitém kontextu; **typ** je jednotka dekontextualizovaná (na kontextu nezávislá), která je schopna nabývat takových vlastností, jako je //[[pojmy:frekvence|frekvence]]//. Zatímco velikost korpusu je udávána v počtu tokenů (označuje se většinou jako //N//), počet typů značí množství **různých** jednotek v korpusu (označuje se většinou //V// = vocabulary). Typ může být v podstatě libovolná jednotka, nejčastěji se ovšem v této souvislosti uvažuje o [[pojmy:word|slovním tvaru]] nebo [[pojmy:lemma|lemmatu]].
  
 ===== Poměr počtu typů a tokenů ===== ===== Poměr počtu typů a tokenů =====
  
-TTR (token-type ratio) je poměr počtu různých slov (typů) k celkovému počtu všech slov v korpusu (někdy vyjádřený v procentech). Pokud je poměr vysoký, můžeme mluvit o textu s velkou lexikální bohatostí (užívá mnoho různých jednotek), malý poměr značí velkou míru opakování.+**TTR (token-type ratio)** je poměr (někdy vyjádřený procenty) počtu různých slov nebo lemmat (typů) k celkovému počtu všech slov v korpusu. Pokud je tento poměr vysoký, můžeme mluvit o textu s velkou lexikální bohatostí (užívá mnoho různých jednotek), malý poměr značí velkou míru opakování.
  
-Token-type jako ukazatel je silně vázaný na celkovou velikost korpusu, je proto jen obtížně využitelný jako obecný referenční ukazatel. Čím delší text máme k dispozici, tím větší je poměr mezi tokeny a typy (ačkoli vztah není lineární, viz [[pojmy:heaps|Heapsův zákon]]).+Token-type jako ukazatel je silně vázaný na celkovou velikost korpusu, je proto jen obtížně využitelný jako obecný referenční ukazatel. Čím delší text máme k dispozici, tím větší je poměr mezi tokeny a typy (ačkoli vztah není lineární, viz [[pojmy:heaps|Heapsův zákon]]). Jako ukazatel lexikální diverzity (bohatství slovníku) je tedy v zásadě nepoužitelný (pokud neporovnáváme stejně dlouhé texty). 
 + 
 +==== Související odkazy ==== 
 + 
 +<WRAP round box 49%> 
 +[[pojmy:frekvence|Frekvence]] • [[pojmy:lemma|Lemma]] • [[pojmy:zipf|Zipfovy zákony]] • [[pojmy:word|Slovní tvar (word)]] 
 +</WRAP>