Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:vyhodnoceni_dotazu [2021/03/09 10:47] – [Uložení výsledků analýzy] vaclavcvrcek | kurz:vyhodnoceni_dotazu [2021/03/11 05:18] (aktuální) – [Frekvenční distribuce slovních tvarů] michalskrabal |
---|
==== Frekvenční distribuce slovních tvarů ==== | ==== Frekvenční distribuce slovních tvarů ==== |
| |
[{{:kurz:frekv_slovnitvary.png?direct&400|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}] | Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů. |
| |
Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to ve starším korpusu [[cnk:syn2010|SYN2010]]. Celkem se tu nachází 29 990 výskytů tohoto lemmatu. V menu zvolíme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny [[pojmy:word|slovní tvary]] (včetně všech rozdílů v psaní velkých a malých písmen). Celkový počet různých forem ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky. | [{{:kurz:frekv_slovnitvary.png?direct&364|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}] |
| |
[{{ :kurz:lemma_slovni_tvary_bezvelkych.png?direct&500|Frekvenční distribuce slovních tvarů ([[pojmy:case-sensitive|case-insensitive]] )}}] | Z výsledné tabulky se dá leccos snadno vyčíst, např. kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného). |
| |
Připadá-li nám tabulka nepřehledná, můžeme ji snadno upravit: stačí v menu vybrat volbu **Frekvence → Vlastní**, zvolit atribut **word** a zaškrtnout, že nechceme [[pojmy:case-sensitive|rozlišovat velikost]]. Z výsledné tabulky snadno vyčteme, kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami//. Pokud vás zajímá, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného). | Pohled na 95 konkordančních řádků tvaru //nohami//, k nimž se takto dostanete, ukazuje, že většinou se skutečně jedná o nohy od nábytku (stůl, židle), nezanedbatelný počet výskytů sice odkazuje i k životným subjektům, ale v porovnání s četností (kodifikovaného) tvaru //nohama// (4817) je to minimum. A naopak, jistě bychom našli i [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~bAgKu66oiAsu|nejeden tvar]] //nohama// v souvislosti s nábytkem. |
| |
Pohled na 58 konkordančních řádků, k nimž se takto dostanete, ukazuje, že v naprosté většině se skutečně jedná o nohy od nábytku či třeba od hub. Životných subjektů, které //těma nohama// můžou dle vlastní vůle hýbat, mezi nimi bylo minimum. | |
| |
<WRAP round important 50%> | <WRAP round important 50%> |
Pozor, je třeba počítat s pádovou homonymií: např. nejfrekventovanější tvar //nohy// může být jak Gsg., tak Npl. či Apl. | Pozor, je třeba počítat s pádovou homonymií: např. nejfrekventovanější tvar //nohy// může být jak forma genitivu singuláru, tak nominativu či akuzativu plurálu (a jak se ukáže níže, i ještě jednoho okrajového pádu -- tipnete si jakého?). |
</WRAP> | </WRAP> |
==== Frekvenční distribuce tagů ==== | |
| |
Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//. | Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkého objemu dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %). Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší. |
| |
| [{{:kurz:frekvdistribtag.png?direct&450| Výběr vlastního atributu pro frekvenční distribuci }}] |
| |
| Výsledný soupis vypadá trochu divočeji než ten předchozí, ale s pomocí [[seznamy:tagy#popis_jednotlivych_pozic_znacky|nápovědy]] se v něm po chvilce zorientujete. Relevantní je tu 4. a 5. pozice, označující číslo a pád; vidíme tedy, že akuzativ plurálu (P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) -- nacházíme na sedmém řádku. |
| |
| {{:kurz:frekvdistribtag2.png?direct&300|}} |
| |
| Podobně bychom mohli z prvního frekvenčního seznamu výše pozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribuce, tentokrát přes atribut **tag** -- dostali bychom takovýto výsledek: |
| |
| {{:kurz:frekvdistribtag3.png?direct|}} |
| |
[{{:kurz:frekvdistribtag.png?direct&600 | Výběr vlastního atributu pro frekvenční distribuci }}] | (Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.) |
| |
==== Frekvenční distribuce slovních druhů v okolí KWICu ==== | ==== Frekvenční distribuce slovních druhů v okolí KWICu ==== |
| |
Adjektiva //proslulý// a //věhlasný// jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející [[pojmy:KWIC|KWICu]]. Vyhledáme postupně obě zkoumaná lemmata. Na výsledek (520 výskytů v SYN2010 pro //věhlasný//, 3277 pro //proslulý//) uplatníme frekvenční distribuci. V menu vybereme **Frekvence → Vlastní** Jako atribut zadáme **[[pojmy:pos|pos]]** (part-of-speech, slovní druh), pozici změníme na **1L** (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva). | Adjektiva //proslulý// a //věhlasný// jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející [[pojmy:KWIC|KWICu]]. Vyhledáme postupně obě zkoumaná lemmata v SYN2020. Na výsledek (523krát //věhlasný//, 2652krát pro //proslulý//) uplatníme frekvenční distribuci. V menu vybereme **Frekvence → Vlastní** Jako atribut zadáme **[[pojmy:pos|pos]]** (part-of-speech, slovní druh), pozici změníme na **1L** (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva). |
| |
| |
<WRAP clear/> | <WRAP clear/> |
| |
Ve výsledné tabulce zjistíme, že slovu //proslulý// předcházejí nejčastěji právě adverbia ([[seznamy:tagy#pozice_1_-_slovni_druh|označovaná zkratkou D]]), kdežto slovu //věhlasný// obvykle substantiva (N), a adverbia jsou dokonce až na šestém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu //proslulý// předchází adverbium ve 23 % případů v porovnání s 8 % případů u //věhlasný//. | Ve výsledné tabulce zjistíme, že slovu //proslulý// předcházejí nejčastěji právě adverbia ([[seznamy:tagy#pozice_1_-_slovni_druh|označovaná zkratkou D]]), kdežto slovu //věhlasný// obvykle substantiva (N), a adverbia jsou dokonce až na sedmém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu //proslulý// předchází adverbium ve 25 % případů v porovnání s 8 % případů u //věhlasný//. |
| |
| |
</WRAP> | </WRAP> |
| |
[{{:kurz:frekvdistagyvehlasne.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] [{{:kurz:frekvdistagyprosluly.png?direct&300|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}] | [{{:kurz:frekvdistagyvehlasne.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] |
| [{{:kurz:frekvdistagyprosluly.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}] |
| |
Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **word**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //světově, nechvalně// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak, kdysi// nebo //dnes//. | Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **lemma**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //nechvalně//, //světově// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak//, //také//, //málo// nebo //už//. |
| |
==== Vliv typu textu na jazyk ==== | ==== Vliv typu textu na jazyk ==== |
Po zobrazení konkordance z menu vybereme **Frekvence → Typy textů**, a protože jednotlivé textové typy a žánry nejsou zastoupeny stejným objemem textů, kliknutím na **i.p.m.** seřadíme výsledky podle relativní frekvence. | Po zobrazení konkordance z menu vybereme **Frekvence → Typy textů**, a protože jednotlivé textové typy a žánry nejsou zastoupeny stejným objemem textů, kliknutím na **i.p.m.** seřadíme výsledky podle relativní frekvence. |
| |
Nejvyšší relativní frekvenci (479 i.p.m.) najdeme u dramat, nejnižší (12 i.p.m.) u administrativních textů. Divadelní hry (txtype SCR: drama) jako druh psaného textu, který má nejblíže mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL, které obsahují neformální a nepřipravený mluvený jazyk. Zadáme tedy stejný dotaz, tentokrát do korpusu [[cnk:oral2013|ORAL2013]]. | Nejvyšší relativní frekvenci (479 i.p.m.) najdeme u dramat, nejnižší (12 i.p.m.) u administrativních textů. Divadelní hry (txtype SCR: drama) jako druh psaného textu, který má nejblíže mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL, které obsahují neformální a nepřipravený mluvený jazyk. Zadáme tedy stejný dotaz, tentokrát do korpusu [[cnk:oral|ORAL v1]]. |
| |
Jelikož ORAL2013 není [[pojmy:lemma|lemmatizovaný]], automaticky nám zmizí výchozí atribut **lemma**. Naštěstí hledáme slovo, které se neskloňuje ani nečasuje, proto si vystačíme s atributem **word**. Současně bychom ale měli zohlednit to, že slovo //vlastně// má v mluvené češtině také podobu //vlasně//. V mluveném korpusu tedy vyhledáme obě formy ((V příští lekci se dozvíte, že nejelegantněji to lze učinit pomocí regulárního výrazu ''?'' -- ''vlast?ně'')) a výsledky sečteme. | Výsledky shrnuje následující tabulka: |
| |
^ Textový typ ^ relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^ | ^ Textový typ ^ relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^ |
| VER: poezie | 139 | | | VER: poezie | 139 | |
| ADM: administrativa | 12 | | | ADM: administrativa | 12 | |
| ORAL2013 (//vlastně// + //vlasně//) | 1542 | | | ORAL v1 (//vlastně// + //vlasně//((Pod lemmatem //vlastně// se skrývá i redukovaná výslovnostní podoba //vlasně//. Oba tvary jsou, jak patrno z **Frekvence → Slovní tvary**, zastoupeny víceméně vyrovnaně.))) | 1363 | |
| |
Nízká frekvence //vlastně// v administrativě a odborné literatuře je pochopitelná, tyto texty se snaží být stručné a přitom exaktní. Mluvený jazyk, který divadelní hry (ale oproti poezii třeba i próza, především v přímé řeči) napodobují, naopak jistou redundanci (kterou //vlastně// signalizuje) přímo vyžaduje. | Nízká frekvence //vlastně// v administrativě a odborné literatuře je pochopitelná, tyto texty se snaží být stručné a přitom exaktní. Mluvený jazyk, který divadelní hry (ale oproti poezii třeba i próza, především v přímé řeči) napodobují, naopak jistou redundanci (kterou //vlastně// signalizuje) přímo vyžaduje. |
==== Frekvenční distribuce charakteristik mluvčích ==== | ==== Frekvenční distribuce charakteristik mluvčích ==== |
| |
Charakteristiky mluvčích v mluvených korpusech ([[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|věk, pohlaví, vzdělání, oblast]]), to vše si navolíte prostřednictvím volby **Frekvence → Vlastní → Podle typů textu**. Podobný výstup poskytuje i rychlá volba **Frekvence → Typy textů**, kterou aplikujete na konkordanci v mluveném korpusu řady Oral. | Jednotlivé charakteristiky mluvčích v mluvených korpusech (např. [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|věk, pohlaví, vzdělání, oblast]]) si navolíte prostřednictvím volby **Frekvence → Vlastní → Podle typů textu**. Podobný výstup poskytuje i rychlá volba **Frekvence → Typy textů**, kterou aplikujete na konkordanci v mluveném korpusu řady Oral. |
| |
[{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}] | [{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}] |
| |
<WRAP clear/> | <WRAP clear/> |
| |
===== Třídění řádků ===== | ===== Třídění řádků ===== |
| |
| |
Kvalitativní analýzou zjistíme, že po adjektivu //červený// skutečně v textu nejčastěji následují substantiva, např. //víno//, //kříž//, //barva//, //řepa// či //karta//. Podobnou kvalitativní analýzou levého kontextu (klíč třídění změníme na **Levý kontext**) dospějeme k tomu, že adjektivum //červený// může být rozvíjeno adverbii jako //jasně// či //temně//, adjektivy //velký// či //malý// nebo slovesy //být//, //mít// aj. | Kvalitativní analýzou zjistíme, že po adjektivu //červený// skutečně v textu nejčastěji následují substantiva, např. //víno//, //kříž//, //barva//, //řepa// či //karta//. Podobnou kvalitativní analýzou levého kontextu (klíč třídění změníme na **Levý kontext**) dospějeme k tomu, že adjektivum //červený// může být rozvíjeno adverbii jako //jasně// či //temně//, adjektivy //velký// či //malý// nebo slovesy //být//, //mít// aj. |
| |
| |
===== Uložení výsledků analýzy ===== | ===== Uložení výsledků analýzy ===== |
| |