AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:vyhodnoceni_dotazu [2021/03/09 16:50] – [Frekvenční distribuce slovních druhů v okolí KWICu] Michal Škrabalkurz:vyhodnoceni_dotazu [2021/03/11 05:18] (aktuální) – [Frekvenční distribuce slovních tvarů] Michal Škrabal
Řádek 13: Řádek 13:
 Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů. Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů.
  
-[{{:kurz:frekv_slovnitvary.png?direct&400|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}]  +[{{:kurz:frekv_slovnitvary.png?direct&364|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}] 
-FIXME https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~cs00Iuek0GQm&fcrit=word%2Fie%200~0%3E0&flimit=1&fpage=1&ftt_include_empty=0+
  
 Z výsledné tabulky se dá leccos snadno vyčíst, např. kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného).  Z výsledné tabulky se dá leccos snadno vyčíst, např. kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného). 
Řádek 26: Řádek 25:
 Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkého objemu dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %). Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší. Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkého objemu dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %). Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší.
  
-[{{:kurz:frekvdistribtag.png?direct&600 | Výběr vlastního atributu pro frekvenční distribuci }}]+[{{:kurz:frekvdistribtag.png?direct&450| Výběr vlastního atributu pro frekvenční distribuci }}]
  
-Výsledný soupis vypadá trochu divočeji než ten předchozí, ale s pomocí [[seznamy:tagy#popis_jednotlivych_pozic_znacky|nápovědy]] se v něm po chvilce zorientujete. Relevantní je tu 4. a 5. pozice, označující číslo a pád; vidíme tedy, že akuzativ plurálu n(P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) -- nacházíme na sedmém řádku.+Výsledný soupis vypadá trochu divočeji než ten předchozí, ale s pomocí [[seznamy:tagy#popis_jednotlivych_pozic_znacky|nápovědy]] se v něm po chvilce zorientujete. Relevantní je tu 4. a 5. pozice, označující číslo a pád; vidíme tedy, že akuzativ plurálu (P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) -- nacházíme na sedmém řádku.
  
-FIXME DOPLNIT https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~iw6M6emyWM6A&fcrit=tag%2Fe%200%3C0&flimit=1&freq_sort=freq&fpage=1&ftt_include_empty=0+{{:kurz:frekvdistribtag2.png?direct&300|}}
  
-Podobně bychom mohli z prvního frekvenční seznamu výše pozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribuce, tentokrát přes atribut **tag** -- dostali bychom takovýto výsledek: +Podobně bychom mohli z prvního frekvenčního seznamu výše pozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribuce, tentokrát přes atribut **tag** -- dostali bychom takovýto výsledek: 
-FIXME DOPLNIT https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~PO6ooSgSMyea&fcrit=tag%2Fe%200%3C0&flimit=1&fpage=1&ftt_include_empty=1+ 
 +{{:kurz:frekvdistribtag3.png?direct|}}
  
 (Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.) (Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.)
Řádek 53: Řádek 53:
 </WRAP> </WRAP>
  
-[{{:kurz:frekvdistagyvehlasne.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}]FIXME https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~z0UukeiQqiQm&fcrit=pos%2Fe%20-1%3C0&flimit=1&fpage=1&ftt_include_empty=0 [{{:kurz:frekvdistagyprosluly.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}]FIXME https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~jMsuccuUaQyy&fcrit=pos%2Fe%20-1%3C0&flimit=1&fpage=1&ftt_include_empty=0+[{{:kurz:frekvdistagyvehlasne.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] 
 +[{{:kurz:frekvdistagyprosluly.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}]
  
 Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **lemma**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //nechvalně//, //světově// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak//, //také//, //málo// nebo //už//. Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **lemma**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //nechvalně//, //světově// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak//, //také//, //málo// nebo //už//.
Řádek 82: Řádek 83:
  
 [{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}] [{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}]
-FIXME https://www.korpus.cz/kontext/freqs?maincorp=oral_v1&viewmode=kwic&pagesize=100&attrs=word%2Clc%2Clemma%2Clemma_lc%2Ctag%2Cpos%2Csubpos%2Cgen%2Cnum%2Ccase%2Cposs_gen%2Cposs_num%2Cpers%2Ctense%2Cdeg%2Cneg%2Cvoice&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.id&q=~Zy0miWq2WOyg&fcrit=sp.gender%200&fcrit=sp.edu_binary%200&fcrit=sp.age_binary%200&fcrit=sp.reg_childhood%200&flimit=1&fpage=1&ftt_include_empty=0 
  
 <WRAP clear/> <WRAP clear/>