AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:vyhodnoceni_dotazu [2021/03/09 16:22] michalskrabalkurz:vyhodnoceni_dotazu [2021/03/11 05:18] (aktuální) – [Frekvenční distribuce slovních tvarů] michalskrabal
Řádek 13: Řádek 13:
 Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů. Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů.
  
-[{{:kurz:frekv_slovnitvary.png?direct&400|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}]  +[{{:kurz:frekv_slovnitvary.png?direct&364|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}] 
-FIXME https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~cs00Iuek0GQm&fcrit=word%2Fie%200~0%3E0&flimit=1&fpage=1&ftt_include_empty=0+
  
 Z výsledné tabulky se dá leccos snadno vyčíst, např. kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného).  Z výsledné tabulky se dá leccos snadno vyčíst, např. kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného). 
Řádek 21: Řádek 20:
  
 <WRAP round important 50%> <WRAP round important 50%>
-Pozor, je třeba počítat s pádovou homonymií: např. nejfrekventovanější tvar //nohy// může být jak forma genitivu singuláru, tak nominativu či akuziativu plurálu.+Pozor, je třeba počítat s pádovou homonymií: např. nejfrekventovanější tvar //nohy// může být jak forma genitivu singuláru, tak nominativu či akuzativu plurálu (a jak se ukáže níže, i ještě jednoho okrajového pádu -- tipnete si jakého?).
 </WRAP> </WRAP>
  
-Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkých objemů dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %) +Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkého objemu dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %)Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší.
-Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší.+
  
-[{{:kurz:frekvdistribtag.png?direct&600 | Výběr vlastního atributu pro frekvenční distribuci }}]+[{{:kurz:frekvdistribtag.png?direct&450| Výběr vlastního atributu pro frekvenční distribuci }}]
  
-Výsledný soupis vypadá trochu divočeji než ten předchozí, ale s pomocí [[seznamy:tagy|nápovědy#popis_jednotlivych_pozic_znacky]] se v něm po chvilce zorientujete. Relevantní je tu 4. a 5. pozice, označující číslo a pád; vidíme tedy, že akuzativ plurálu n(P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) nacházíme na sedmém řádku.+Výsledný soupis vypadá trochu divočeji než ten předchozí, ale s pomocí [[seznamy:tagy#popis_jednotlivych_pozic_znacky|nápovědy]] se v něm po chvilce zorientujete. Relevantní je tu 4. a 5. pozice, označující číslo a pád; vidíme tedy, že akuzativ plurálu (P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) -- nacházíme na sedmém řádku.
  
-FIXME DOPLNIT https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~iw6M6emyWM6A&fcrit=tag%2Fe%200%3C0&flimit=1&freq_sort=freq&fpage=1&ftt_include_empty=0+{{:kurz:frekvdistribtag2.png?direct&300|}}
  
-Podobně bychom mohli z prvního frekvenční seznamu výše pozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribuce, tentokrát přes atribut **tag** -- dostali bychom takovýto výsledek: +Podobně bychom mohli z prvního frekvenčního seznamu výše pozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribuce, tentokrát přes atribut **tag** -- dostali bychom takovýto výsledek: 
-FIXME DOPLNIT https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~PO6ooSgSMyea&fcrit=tag%2Fe%200%3C0&flimit=1&fpage=1&ftt_include_empty=1+ 
 +{{:kurz:frekvdistribtag3.png?direct|}}
  
 (Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.) (Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.)
Řádek 40: Řádek 39:
 ==== Frekvenční distribuce slovních druhů v okolí KWICu ==== ==== Frekvenční distribuce slovních druhů v okolí KWICu ====
  
-Adjektiva //proslulý// a //věhlasný// jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející [[pojmy:KWIC|KWICu]]. Vyhledáme postupně obě zkoumaná lemmata. Na výsledek (520 výskytů v SYN2010 pro //věhlasný//, 3277 pro //proslulý//) uplatníme frekvenční distribuci. V menu vybereme **Frekvence → Vlastní** Jako atribut zadáme **[[pojmy:pos|pos]]** (part-of-speech, slovní druh), pozici změníme na **1L** (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva).+Adjektiva //proslulý// a //věhlasný// jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející [[pojmy:KWIC|KWICu]]. Vyhledáme postupně obě zkoumaná lemmata v SYN2020. Na výsledek (523krát //věhlasný//, 2652krát pro //proslulý//) uplatníme frekvenční distribuci. V menu vybereme **Frekvence → Vlastní** Jako atribut zadáme **[[pojmy:pos|pos]]** (part-of-speech, slovní druh), pozici změníme na **1L** (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva).
  
  
Řádek 47: Řádek 46:
 <WRAP clear/> <WRAP clear/>
  
-Ve výsledné tabulce zjistíme, že slovu //proslulý// předcházejí nejčastěji právě adverbia ([[seznamy:tagy#pozice_1_-_slovni_druh|označovaná zkratkou D]]), kdežto slovu //věhlasný// obvykle substantiva (N), a adverbia jsou dokonce až na šestém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu //proslulý// předchází adverbium ve 23 % případů v porovnání s 8 % případů u //věhlasný//.+Ve výsledné tabulce zjistíme, že slovu //proslulý// předcházejí nejčastěji právě adverbia ([[seznamy:tagy#pozice_1_-_slovni_druh|označovaná zkratkou D]]), kdežto slovu //věhlasný// obvykle substantiva (N), a adverbia jsou dokonce až na sedmém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu //proslulý// předchází adverbium ve 25 % případů v porovnání s 8 % případů u //věhlasný//.
  
  
Řádek 54: Řádek 53:
 </WRAP> </WRAP>
  
-[{{:kurz:frekvdistagyvehlasne.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] [{{:kurz:frekvdistagyprosluly.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}]+[{{:kurz:frekvdistagyvehlasne.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] 
 +[{{:kurz:frekvdistagyprosluly.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}]
  
-Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **word**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //světově, nechvalně// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak, kdysi// nebo //dnes//.+Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **lemma**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //nechvalně//, //světově// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak////také//, //málo// nebo ////.
  
 ==== Vliv typu textu na jazyk ==== ==== Vliv typu textu na jazyk ====
Řádek 83: Řádek 83:
  
 [{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}] [{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}]
-FIXME https://www.korpus.cz/kontext/freqs?maincorp=oral_v1&viewmode=kwic&pagesize=100&attrs=word%2Clc%2Clemma%2Clemma_lc%2Ctag%2Cpos%2Csubpos%2Cgen%2Cnum%2Ccase%2Cposs_gen%2Cposs_num%2Cpers%2Ctense%2Cdeg%2Cneg%2Cvoice&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.id&q=~Zy0miWq2WOyg&fcrit=sp.gender%200&fcrit=sp.edu_binary%200&fcrit=sp.age_binary%200&fcrit=sp.reg_childhood%200&flimit=1&fpage=1&ftt_include_empty=0 
  
 <WRAP clear/> <WRAP clear/>
 +
 ===== Třídění řádků ===== ===== Třídění řádků =====