Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:vyhodnoceni_dotazu [2021/03/09 16:40] – michalskrabal | kurz:vyhodnoceni_dotazu [2021/03/11 05:18] (aktuální) – [Frekvenční distribuce slovních tvarů] michalskrabal |
---|
Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů. | Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů. |
| |
[{{:kurz:frekv_slovnitvary.png?direct&400|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}] | [{{:kurz:frekv_slovnitvary.png?direct&364|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}] |
FIXME https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~cs00Iuek0GQm&fcrit=word%2Fie%200~0%3E0&flimit=1&fpage=1&ftt_include_empty=0 | |
| |
Z výsledné tabulky se dá leccos snadno vyčíst, např. kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného). | Z výsledné tabulky se dá leccos snadno vyčíst, např. kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného). |
</WRAP> | </WRAP> |
| |
Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkých objemů dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %) | Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkého objemu dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %). Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší. |
Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší. | |
| |
[{{:kurz:frekvdistribtag.png?direct&600 | Výběr vlastního atributu pro frekvenční distribuci }}] | [{{:kurz:frekvdistribtag.png?direct&450| Výběr vlastního atributu pro frekvenční distribuci }}] |
| |
Výsledný soupis vypadá trochu divočeji než ten předchozí, ale s pomocí [[seznamy:tagy|nápovědy#popis_jednotlivych_pozic_znacky]] se v něm po chvilce zorientujete. Relevantní je tu 4. a 5. pozice, označující číslo a pád; vidíme tedy, že akuzativ plurálu n(P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) nacházíme na sedmém řádku. | Výsledný soupis vypadá trochu divočeji než ten předchozí, ale s pomocí [[seznamy:tagy#popis_jednotlivych_pozic_znacky|nápovědy]] se v něm po chvilce zorientujete. Relevantní je tu 4. a 5. pozice, označující číslo a pád; vidíme tedy, že akuzativ plurálu (P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) -- nacházíme na sedmém řádku. |
| |
FIXME DOPLNIT https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~iw6M6emyWM6A&fcrit=tag%2Fe%200%3C0&flimit=1&freq_sort=freq&fpage=1&ftt_include_empty=0 | {{:kurz:frekvdistribtag2.png?direct&300|}} |
| |
Podobně bychom mohli z prvního frekvenční seznamu výše pozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribuce, tentokrát přes atribut **tag** -- dostali bychom takovýto výsledek: | Podobně bychom mohli z prvního frekvenčního seznamu výše pozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribuce, tentokrát přes atribut **tag** -- dostali bychom takovýto výsledek: |
FIXME DOPLNIT https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~PO6ooSgSMyea&fcrit=tag%2Fe%200%3C0&flimit=1&fpage=1&ftt_include_empty=1 | |
| {{:kurz:frekvdistribtag3.png?direct|}} |
| |
(Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.) | (Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.) |
</WRAP> | </WRAP> |
| |
[{{:kurz:frekvdistagyvehlasne.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}]FIXME https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~z0UukeiQqiQm&fcrit=pos%2Fe%20-1%3C0&flimit=1&fpage=1&ftt_include_empty=0 [{{:kurz:frekvdistagyprosluly.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}]FIXME https://www.korpus.cz/kontext/freqs?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~jMsuccuUaQyy&fcrit=pos%2Fe%20-1%3C0&flimit=1&fpage=1&ftt_include_empty=0 | [{{:kurz:frekvdistagyvehlasne.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] |
| [{{:kurz:frekvdistagyprosluly.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}] |
| |
Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **word**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //světově, nechvalně// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak, kdysi// nebo //dnes//. | Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **lemma**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //nechvalně//, //světově// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak//, //také//, //málo// nebo //už//. |
| |
==== Vliv typu textu na jazyk ==== | ==== Vliv typu textu na jazyk ==== |
| |
[{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}] | [{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}] |
FIXME https://www.korpus.cz/kontext/freqs?maincorp=oral_v1&viewmode=kwic&pagesize=100&attrs=word%2Clc%2Clemma%2Clemma_lc%2Ctag%2Cpos%2Csubpos%2Cgen%2Cnum%2Ccase%2Cposs_gen%2Cposs_num%2Cpers%2Ctense%2Cdeg%2Cneg%2Cvoice&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.id&q=~Zy0miWq2WOyg&fcrit=sp.gender%200&fcrit=sp.edu_binary%200&fcrit=sp.age_binary%200&fcrit=sp.reg_childhood%200&flimit=1&fpage=1&ftt_include_empty=0 | |
| |
<WRAP clear/> | <WRAP clear/> |