AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:vyhodnoceni_dotazu [2018/08/06 15:57] – [Frekvenční distribuce slovních tvarů] Michal Škrabalkurz:vyhodnoceni_dotazu [2021/03/11 05:18] (aktuální) – [Frekvenční distribuce slovních tvarů] Michal Škrabal
Řádek 1: Řádek 1:
 ====== 3. lekce: Položili jsme dotaz. Jak ho vyhodnotit? ====== ====== 3. lekce: Položili jsme dotaz. Jak ho vyhodnotit? ======
  
-V první lekci tohoto průvodce pro práci s korpusy jsme se naučili položit [[prvni_dotaz|první dotaz]] a rozlišit, který [[prvni_dotaz#typy_dotazu|typ dotazu]] je vhodný na jaký problém. V druhé lekci jsme si ukázali různé [[zobrazeni_dotazu#moznosti_zobrazeni|možnosti zobrazení výsledků]], především doplňkových informací o zdrojovém textu.  +V první lekci tohoto průvodce pro práci s korpusy jsme se naučili pokládat jednoduchý typ dotazu, v druhé lekci jsme si ukázali různé [[zobrazeni_dotazu#moznosti_zobrazeni|možnosti zobrazení výsledků]], především doplňkových informací o zdrojovém textu. Nyní se zaměříme zejména na to, jak zobrazená data co nejefektivněji vyhodnotit pomocí funkcí **[[manualy:kontext:frekvence|Frekvence]]** a **[[manualy:kontext:konkordance#trideni|Konkordance → Třídění]]**.
- +
-V této, třetí lekci se zaměříme zejména na to, jak zobrazená data co nejefektivněji vyhodnotit pomocí funkcí **[[manualy:kontext:frekvence|Frekvence]]** a **[[manualy:kontext:konkordance#trideni|Konkordance → Třídění řádků]]**.+
  
 ===== Frekvence ===== ===== Frekvence =====
  
 Funkce frekvenční distribuce, zkráceně nazývaná **Frekvence**, poskytuje přehled o frekvenci jevů v rámci vyhledaného dotazu – především pomáhá spočítat, kolik je těch či oněch slovních tvarů, lemmat nebo tagů, případně kolik je výskytů vyhledaného lemmatu či slovního tvaru v různých typech textů. Na rozdíl od konkordance, která zobrazuje [[pojmy:token|tokeny]], frekvenční distribuce slouží k zjištění frekvencí [[pojmy:typ|typů]]. Funkce frekvenční distribuce, zkráceně nazývaná **Frekvence**, poskytuje přehled o frekvenci jevů v rámci vyhledaného dotazu – především pomáhá spočítat, kolik je těch či oněch slovních tvarů, lemmat nebo tagů, případně kolik je výskytů vyhledaného lemmatu či slovního tvaru v různých typech textů. Na rozdíl od konkordance, která zobrazuje [[pojmy:token|tokeny]], frekvenční distribuce slouží k zjištění frekvencí [[pojmy:typ|typů]].
 +
 +Vedle rychlých voleb – slovní tvary (bez ohledu na velikost písmen), dokumenty, typy textů apod. – nabízí funkce **Frekvence** i široce nastavitelnou volbu **Vlastní**. Ta umožňuje vytvářet frekvenční seznamy pozičních atributů (tzv. **Běžná** frekvenční distribuce), seznamy strukturních atributů (**Podle typů textu**) a seznamy kombinující dva atributy (tomuto typu se zde věnovat nebudeme, je ale popsán v [[manualy:kontext:frekvence#zavislost_dvou_atributu|manuálu]]).
  
 ==== Frekvenční distribuce slovních tvarů ==== ==== Frekvenční distribuce slovních tvarů ====
  
-[{{:kurz:frekv_slovnitvary.png?400|Frekvenční distribuce slovních tvarů ([[pojmy:case-sensitive|rozlišováním velikosti]] FIXME)}}] +Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//, a to v korpusu [[cnk:syn2020|SYN2020]]. Celkem se tu nachází 32 535 výskytů tohoto lemmatu (za předpokladu, že jsme zvolili lemma za výchozí atribut). V menu vybereme volbu **Frekvence → Slovní tvary**, načež se nám ukážou všechny doložené pádové formy. Celkový počet různých tvarů ([[pojmy:typ|typů]]) je zobrazen za slovem **Celkem** v horní části výsledné tabulky, v tomto případě 12 tvarů.
  
-Zkusme si nejprve společně vyhledat frekvenci jednotlivých pádových forem [[pojmy:lemma|lemmatu]] //noha//+[{{:kurz:frekv_slovnitvary.png?direct&364|Frekvenční distribuce slovních tvarů (s [[pojmy:case-sensitive|rozlišováním velikosti]] )}}] 
  
-**1krok**: Vyhledání daného lemmatu korpusu [[cnk:syn2010|SYN2010]] (29 990 výskytů)+Z výsledné tabulky se dá leccos snadno vyčíst, napřkolikrát se slovo //noha// realizuje "neživotném" tvaru //nohami//. Zajímá-li vás, zda a jak se liší užití tvarů //nohama// a //nohami//, stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného)
  
-**2krok**Volba položky menu **Frekvence → Slovní tvary**+Pohled na 95 konkordančních řádků tvaru //nohami//, k nimž se takto dostanete, ukazuje, že většinou se skutečně jedná o nohy od nábytku (stůl, židle), nezanedbatelný počet výskytů sice odkazuje i k životným subjektům, ale v porovnání s četností (kodifikovaného) tvaru //nohama// (4817) je to minimumA naopak, jistě bychom našli i [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~bAgKu66oiAsu|nejeden tvar]] //nohama// souvislosti s nábytkem.
  
-Poté se nám ukážou všechny [[pojmy:word|slovní tvary]] (včetně všech rozdílů v psaní velkých a malých písmen). Celkový počet různých forem ([[pojmy:typ|typů]]je zobrazen za slovem **Celkem** v horní části výsledné tabulky.+<WRAP round important 50%> 
 +Pozor, je třeba počítat s pádovou homonymiínapř. nejfrekventovanější tvar //nohy// může být jak forma genitivu singuláru, tak nominativu či akuzativu plurálu (a jak se ukáže níže, i ještě jednoho okrajového pádu -- tipnete si jakého?). 
 +</WRAP>
  
 +Jak tyto pádové formy odlišit? Samozřejmě lze vyfiltrovanou konkordanci podrobit manuální analýze, ale ruku na srdce, chtělo by se vám ručně procházet přes 13 tisíc řádků? U takto velkého objemu dat je však lepší spolehnout se na automatickou [[pojmy:morfologicka_analyza|morfologickou analýzu]] (a skousnout určitou míru chybovosti, pohybující se aktuálně kolem 4 %). Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//, který nám konkrétní pádové formy -- i ty homonymní -- odliší.
  
-[{{ :kurz:lemma_slovni_tvary_bezvelkych.png?500|Frekvenční distribuce slovních tvarů ([[pojmy:case-sensitive|case-insensitive]] FIXME)}}]+[{{:kurz:frekvdistribtag.png?direct&450Výběr vlastního atributu pro frekvenční distribuci }}]
  
-**3. krok**: Připadá-li nám tabulka nepřehlednámůžeme ji snadno upravitStačí menu vybrat **Frekvence → Vlastní**vybrat atribut **word** zaškrtnout, že nechceme [[pojmy:case-sensitive|rozlišovat velikost]].+Výsledný soupis vypadá trochu divočeji než ten předchozíale s pomocí [[seznamy:tagy#popis_jednotlivych_pozic_znacky|nápovědy]] se něm po chvilce zorientujete. Relevantní je tu 4. a 5. poziceoznačující číslo pád; vidíme tedy, že akuzativ plurálu (P4) je nejčastější, na čtvrtém řádku je zaznamenán nominativ plurálu (P1) a konečně poslední homonymní tvar -- genitiv singuláru (S2) -- nacházíme na sedmém řádku.
  
-**4krok**: Z takové tabulky snadno vyčteme, kolikrát se slovo //noha// realizuje v "neživotném" tvaru //nohami// – vyšlo vám to taky takA zajímá vás, zda a jak se liší užití tvarů //nohama// a //nohami//? Stačí prokliknout přes modře zvýrazněné <fc #4169e1>p</fc> vlevo od vybraného tvaru (<fc #4169e1>p</fc> značí pozitivní [[manualy:kontext:filtr|filtr]] dané konkordance, <fc #4169e1>n</fc> je filtr negativní a zobrazil by všechny tvary **kromě** vybraného). +{{:kurz:frekvdistribtag2.png?direct&300|}}
  
-Pohled na 58 konkordančních řádků, k nimž se takto dostanete, ukazuje, žv naprosté většině se skutečně jedná o nohy od nábytku či třeba od hub. Životných subjektů, které //těma nohama// můžou dle vlastní vůle hýbatmezi nimi bylo minimum.+Podobně bychom mohli z prvního frekvenčního seznamu výšpozitivně vyfiltrovat tvar //nohy// a na ten pak znovu aplikovat funkci Frekvenční distribucetentokrát přes atribut **tag** -- dostali bychom takovýto výsledek:
  
-<WRAP round important 50%> +{{:kurz:frekvdistribtag3.png?direct|}}
-Pozor, je třeba počítat s pádovou homonymiínapřnejfrekventovanější tvar //nohy// může být jak Gsg., tak Npl. či Apl. +
-</WRAP> +
-==== Frekvenční distribuce tagů ==== +
- +
-Stejně jako si můžeme nechat korpusovým manažerem sečíst totožné tvary, není problém aplikovat početní operace i na jiné atributy, např. //[[pojmy:tag|tag]]//.+
  
-[{{:kurz:frekvdistribtag.png?600 | Výběr vlastního atributu pro frekvenční distribuci}}]+(Poslední tři položky mohou být právě případy chybné strojové anotace, ale nemusí tomu tak být, např. všechny tři tvary vokativu plurálu jsou označkovány správně.)
  
 ==== Frekvenční distribuce slovních druhů v okolí KWICu ==== ==== Frekvenční distribuce slovních druhů v okolí KWICu ====
  
-Adjektiva //proslulý// a //věhlasný// jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející [[pojmy:KWIC|KWICu]]. Vyhledáme postupně obě zkoumaná lemmata. Na výsledek (520 výskytů v SYN2010 pro //věhlasný//, 3277 pro //proslulý//) uplatníme frekvenční distribuci. V menu vybereme **Frekvence → Vlastní** Jako atribut zadáme **[[pojmy:pos|pos]]** (part-of-speech, slovní druh), pozici změníme na **1L** (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva).+Adjektiva //proslulý// a //věhlasný// jsou si významově blízká. V textu se však chovají odlišně, a to mj. tím, jak často jsou adverbiálně modifikovaná. Do jaké míry se v tomto ohledu liší a kterými adverbii jsou obě adjektiva rozvíjena, zjistíme pomocí frekvenční distribuce slovních druhů na pozici bezprostředně předcházející [[pojmy:KWIC|KWICu]]. Vyhledáme postupně obě zkoumaná lemmata v SYN2020. Na výsledek (523krát //věhlasný//, 2652krát pro //proslulý//) uplatníme frekvenční distribuci. V menu vybereme **Frekvence → Vlastní** Jako atribut zadáme **[[pojmy:pos|pos]]** (part-of-speech, slovní druh), pozici změníme na **1L** (první pozice vlevo od KWIC, tedy ta, na které se předpokládá výskyt adverbií rozvíjejících adjektiva).
  
  
-[{{:kurz:frekvdistr_tag1l.png?500| Zadání frekvenční distribuce na první pozici vlevo vedle KWICu FIXME}}]+[{{:kurz:frekvdistr_tag1l.png?direct&500| Zadání frekvenční distribuce na první pozici vlevo vedle KWICu }}]
  
 <WRAP clear/> <WRAP clear/>
  
-Ve výsledné tabulce zjistíme, že slovu //proslulý// předcházejí nejčastěji právě adverbia ([[seznamy:tagy#pozice_1_-_slovni_druh|označovaná zkratkou D]]), kdežto slovu //věhlasný// obvykle substantiva (N), a adverbia jsou dokonce až na šestém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu //proslulý// předchází adverbium ve 23 % případů v porovnání s 8 % případů u //věhlasný//.+Ve výsledné tabulce zjistíme, že slovu //proslulý// předcházejí nejčastěji právě adverbia ([[seznamy:tagy#pozice_1_-_slovni_druh|označovaná zkratkou D]]), kdežto slovu //věhlasný// obvykle substantiva (N), a adverbia jsou dokonce až na sedmém místě tabulky. Kromě samotného pořadí je jistě zajímavé i zjištění, v kolika procentech případů jsou tato lemmata adverbiálně modifikována: adjektivu //proslulý// předchází adverbium ve 25 % případů v porovnání s 8 % případů u //věhlasný//.
  
  
 <WRAP round tip 50%> <WRAP round tip 50%>
-TIP: Porovnávání absolutní frekvence může velmi často být zavádějící, spolehlivější a výhodnější je spočítat procentuální zastoupení jevů nebo relativní frekvence.+Porovnávání absolutní frekvence může velmi často být zavádějící, spolehlivější a výhodnější je spočítat procentuální zastoupení jevů nebo relativní frekvence.
 </WRAP> </WRAP>
  
-[{{:kurz:frekvdistagyvehlasne.png?300|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] [{{:kurz:frekvdistagyprosluly.png?300|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}]+[{{:kurz:frekvdistagyvehlasne.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //věhlasný//}}] 
 +[{{:kurz:frekvdistagyprosluly.png?direct&400|Frekvenční distribuce první předcházející pozice lemmatu //proslulý//}}]
  
-Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **word**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //světově, nechvalně// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak, kdysi// nebo //dnes//.+Ve výsledné tabulce můžeme kliknutím na modře zvýrazněné <fc #6495ed>p</fc> (pozitivní filtr) zjistit, která konkrétní adverbia dané lemma rozvíjejí – zobrazí se totiž všechny konkordanční řádky, kde vybranému adjektivu bezprostředně předchází adverbium. Seznam adverbií spolu s jejich frekvencemi získáme opětovným použitím frekvenční distribuce: v menu vybereme **Frekvence → Vlastní**, jako atribut zadáme **lemma**, pozici upravíme na **1L**. Zjistíme tak, že s adjektivem //proslulý// se nejčastěji pojí adverbia //nechvalně//, //světově// a //neblaze//, kdežto slovo //věhlasný// je rozvíjeno zcela odlišným typem adverbií, např. //tak////také//, //málo// nebo ////.
  
 ==== Vliv typu textu na jazyk ==== ==== Vliv typu textu na jazyk ====
-Pomocí frekvenční distribuce můžeme zkoumat i např. vliv toho, o jaký text se jedná (jde o beletrii, publicistiku, či odbornou literaturu? k jakému [[pojmy:genre|žánru]] nebo do kterého oboru lze text přiřadit?). Asi se shodneme, že kupříkladu citoslovce se nepoužívají ve všech textech stejně často, ale jak se to má třeba s takovým slovesem //být//? Je ho v jazyce odborných a populárněnaučných textů významně více než v beletrii? 
  
-  - Nejprve zadáme lemma //být// do korpusu SYN2010. +Pomocí frekvenční distribuce můžeme zkoumat mimo jiné vliv toho, o jaký text se jednáVyhledejme výplňkové slovo //vlastně// tentokrát např. v korpusu [[cnk:syn2015|SYN2015]] (výchozí atribut: **Lemma**) a porovnáme jeho frekvenční distribuci v různých [[pojmy:txtype|textových typech]] s výskyty v mluvené češtině.
-  - Dostaneme 4 010 619 výskytů. +
-  - Zvolíme v menu **Frekvence → Typy textů**. +
-  - První graf s položkami //beletrie//, //publicistika// a //odborná// ukáže, v jakém poměru k sobě výskyty slovesa //být// v těchto [[pojmy:txtype_group|třech velkých skupinách]]. +
-  - Další grafy zobrazí poměry v textových typech ([[pojmy:txtype|txtype]]) a žánrech či disciplínách ([[pojmy:genre|genre]]). +
- +
-<WRAP round tip 50%> +
-TIP: Vzhledem k odlišnému počtu textů v jednotlivých velkých skupinách je vždy výhodnější sledovat [[pojmy:ipm|relativní frekvenci]] (i.p.m.) než poněkud zavádějící frekvenci absolutní.  +
-</WRAP> +
- +
-[{{:kurz:frekvdisbelbyt.png?600|Frekvenční distribuce podle typů textů}}] +
- +
-<WRAP clear/> +
- +
- +
-Na následujícím příkladu si navíc ukážeme i možnosti lingvistické interpretace výsledků korpusové analýzyVyhledáme výplňové slovo //vlastně// v korpusu [[cnk:syn2015|SYN2015]] (Typ dotazu: **Lemma**) a porovnáme jeho frekvenční distribuci v různých [[pojmy:txtype|textových typech]] s výskyty v mluvené češtině. +
- +
-[{{ :kurz:vlastne_syn_frekvdis.png?400|Frekvenční distribuce typů textů lemmatu //vlastně//}}]+
  
 Po zobrazení konkordance z menu vybereme **Frekvence → Typy textů**, a protože jednotlivé textové typy a žánry nejsou zastoupeny stejným objemem textů, kliknutím na **i.p.m.** seřadíme výsledky podle relativní frekvence.  Po zobrazení konkordance z menu vybereme **Frekvence → Typy textů**, a protože jednotlivé textové typy a žánry nejsou zastoupeny stejným objemem textů, kliknutím na **i.p.m.** seřadíme výsledky podle relativní frekvence. 
  
-Nejvyšší relativní frekvenci (479 i.p.m.) najdeme u dramat, nejnižší (12 i.p.m.) u administrativních textů. Divadelní hry (txtype SCR: drama) jako druh psaného textu, který má nejblíže mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL, které obsahují neformální a nepřipravený mluvený jazyk. Zadáme tedy stejný dotaz, tentokrát do korpusu [[cnk:oral2013|ORAL2013]].+Nejvyšší relativní frekvenci (479 i.p.m.) najdeme u dramat, nejnižší (12 i.p.m.) u administrativních textů. Divadelní hry (txtype SCR: drama) jako druh psaného textu, který má nejblíže mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL, které obsahují neformální a nepřipravený mluvený jazyk. Zadáme tedy stejný dotaz, tentokrát do korpusu [[cnk:oral|ORAL v1]].
  
-Jelikož [[pojmy:mluveny|mluvené korpusy]] nejsou (zatím) [[pojmy:lemma|lemmatizované]], automaticky nám zmizí typ dotazu **Lemma**. Naštěstí hledáme slovo, které se neskloňuje ani nečasuje, proto můžeme použít typ dotazu **Základní**. Současně bychom ale měli zohlednit to, že slovo //vlastně// má v mluvené češtině také podobu //vlasně//. V mluveném korpusu tedy vyhledáme obě formy a výsledky sečteme.+Výsledky shrnuje následující tabulka:
  
 ^ Textový typ ^ relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^ ^ Textový typ ^ relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^
Řádek 93: Řádek 74:
 | VER: poezie |  139 | | VER: poezie |  139 |
 | ADM: administrativa |  12 | | ADM: administrativa |  12 |
-ORAL2013 (//vlastně// + //vlasně//) |  1542 |+ORAL v1 (//vlastně// + //vlasně//((Pod lemmatem //vlastně// se skrývá i redukovaná výslovnostní podoba //vlasně//. Oba tvary jsou, jak patrno z **Frekvence → Slovní tvary**, zastoupeny víceméně vyrovnaně.))) |  1363 |
  
-Nízká frekvence //vlastně// v administrativě a odborné literatuře je pochopitelná, tyto texty se snaží být stručné a přitom exaktní. Mluvený jazyk, který divadelní hry (ale oproti poezii třeba i próza, především v přímé řeči) napodobují, naopak jistou redundanci (kterou //vlastně// signalizuje) přímo vyžaduje. Jaké další proměnné mohou mít vliv na výskyt tohoto slova v neformálních mluvených projevech (v korpusu ORAL2013)?+Nízká frekvence //vlastně// v administrativě a odborné literatuře je pochopitelná, tyto texty se snaží být stručné a přitom exaktní. Mluvený jazyk, který divadelní hry (ale oproti poezii třeba i próza, především v přímé řeči) napodobují, naopak jistou redundanci (kterou //vlastně// signalizuje) přímo vyžaduje.
  
 ==== Frekvenční distribuce charakteristik mluvčích ==== ==== Frekvenční distribuce charakteristik mluvčích ====
  
-[[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Věk, pohlaví, vzdělání, oblast]] -- to vše si navolíte prostřednictvím volby **Frekvence → Vlastní → Podle typů textů**. Pokud chcete zjistit frekvenci jevu podle několika různých metainformací najednoustačí pouze podržet tlačítko Ctrl a vybírat.+Jednotlivé charakteristiky mluvčích v mluvených korpusech (např. [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|věk, pohlaví, vzdělání, oblast]]si navolíte prostřednictvím volby **Frekvence → Vlastní → Podle typů textu**. Podobný výstup poskytuje i rychlá volba **Frekvence → Typy textů**kterou aplikujete na konkordanci v mluveném korpusu řady Oral.
  
-[{{:kurz:vlastne_oral_frekdis.png?500|Frekvenční distribuce sociolingvistických proměnných}}]+[{{:kurz:vlastne_oral_frekdis.png?direct&500|Frekvenční distribuce sociolingvistických proměnných }}]
  
 <WRAP clear/> <WRAP clear/>
 +
 ===== Třídění řádků ===== ===== Třídění řádků =====
  
-Kvalitativní analýza konkordančních řádků může těžit z funkce **Třídění**, která je k dispozici v menu pod položkou **Konkordance**. Tuto funkci můžeme využívat, dáváme-li přednost ruční kvalitativní analýze před analýzou frekvenční (viz první část této lekce věnovaná frekvenční distribuci).+Kvalitativní analýza konkordančních řádků může těžit z funkce **Třídění**, která je k dispozici v menu pod položkou **Konkordance**. Tuto funkci lze využít, dáváme-li přednost ruční kvalitativní analýze před analýzou frekvenční (viz první část této lekce věnovaná frekvenční distribuci).
  
 Třídit řádky má smysl jen v případě, že celá konkordance není příliš rozsáhlá -- je tedy rozumné pracovat s [[kurz:vytvareni_vzorku|náhodnými vzorky]], tj. s určitým zpracovatelným počtem náhodně vybraných řádků. Náhodný vzorek vytvoříme po zadání dotazu v menu **Konkordance → Vzorek**, kde si zadáme požadovaný rozsah vzorku. Doporučujeme vybírat spíše menší vzorky (defaultně nastavených je 250), které jsou ještě přehledné. Problematice vytváření náhodných vzorků se detailně věnuje [[kurz:vytvareni_vzorku|samostatný článek]]. Třídit řádky má smysl jen v případě, že celá konkordance není příliš rozsáhlá -- je tedy rozumné pracovat s [[kurz:vytvareni_vzorku|náhodnými vzorky]], tj. s určitým zpracovatelným počtem náhodně vybraných řádků. Náhodný vzorek vytvoříme po zadání dotazu v menu **Konkordance → Vzorek**, kde si zadáme požadovaný rozsah vzorku. Doporučujeme vybírat spíše menší vzorky (defaultně nastavených je 250), které jsou ještě přehledné. Problematice vytváření náhodných vzorků se detailně věnuje [[kurz:vytvareni_vzorku|samostatný článek]].
  
-Jakmile máme připravený náhodný vzorek, můžeme v něm řádky třídit abecedně, a to buď podle prvního znaku KWICu, nebo podle levého či pravého kontextu. Chceme například pomocí kvalitativní analýzy zjistit, s jakými slovy se obvykle pojí adjektivum //červený//. V menu vybereme položku **Konkordance → Třídění**. Pokud nás zajímá pravý kontext, kde se budou pravděpodobně vyskytovat mj. substantiva rozvíjená slovem //červený//, zvolíme atribut **word** nebo **lemma**, klíč třídění **Pravý kontext** a počet tokenů k třídění **1** (to znamená, že abecedně řadit se bude jen jediné slovo vpravo od KWICu).+Jakmile máme připravený náhodný vzorek, můžeme v něm řádky abecedně seřadit, a to buď podle prvního znaku KWICu, nebo podle levého či pravého kontextu. Chceme například pomocí kvalitativní analýzy zjistit, s jakými slovy se obvykle pojí adjektivum //červený//. V menu vybereme položku **Konkordance → Třídění**. Pokud nás zajímá pravý kontext, kde se budou pravděpodobně vyskytovat mj. substantiva rozvíjená slovem //červený//, zvolíme atribut **word** nebo **lemma**, klíč třídění **Pravý kontext** a počet tokenů k třídění **1** (to znamená, že abecedně řadit se bude jen jediné slovo vpravo od KWICu).
  
-Kvalitativní analýzou zjistíme, že po adjektivu //červený// skutečně v textu nejčastěji následují substantiva, např. //víno//, //kříž//, //barva//, //krvinka// či //karta//. Podobnou kvalitativní analýzou levého kontextu (klíč třídění změníme na **Levý kontext**) dospějeme k tomu, že adjektivum //červený// může být rozvíjeno slovy jako //jasně// či //temně//. +Kvalitativní analýzou zjistíme, že po adjektivu //červený// skutečně v textu nejčastěji následují substantiva, např. //víno//, //kříž//, //barva//, //řepa// či //karta//. Podobnou kvalitativní analýzou levého kontextu (klíč třídění změníme na **Levý kontext**) dospějeme k tomu, že adjektivum //červený// může být rozvíjeno adverbii jako //jasně// či //temně//, adjektivy //velký// či //malý// nebo slovesy //být//, //mít// aj.
-===== Uložení výsledků analýzy =====+
  
-Kromě uložení výsledku dotazu (tedy samotných konkordančních řádků) můžeme ukládat i výsledky analýz, především frekvenční distribuce či [[manualy:kontext:kolokace|kolokační]] analýzy. Ve výsledné tabulce (pokud data otevíráme v tabulkovém editoru) můžeme dále třídit, promazávat či jinak upravovat řádky podle svých představ a výzkumných záměrů.  
  
-V korpusu SYN2010 najděte všechna slova obsahující segment //krv// (typ dotazu **Část slova**). Pomocí funkce **Frekvence → Lemmata** vytvořte tabulkukterá řadí lemmata obsahující v některém ze svých tvarů řetězec znaků //krv// podle frekvence+===== Uložení výsledků analýzy ===== 
 + 
 +Kromě uložení výsledku dotazu (tedy samotných konkordančních řádkůmůžeme ukládat i výsledky analýz, především frekvenční a [[manualy:kontext:kolokace|kolokační]] seznamyVe výsledné tabulce (pokud data otevíráme v tabulkovém editoru) můžeme dále tříditpromazávat či jinak upravovat řádky podle svých představ a výzkumných záměrů. 
  
-V horní části výsledné tabulky vidíte, že takových lemmat je celkem 138Vás ale budou zajímat jen taková lemmata, která se v daném korpusu vyskytují alespoň desetkrát. Při ukládání zvolte položku **Uložit → Vlastní**, jež vám umožní omezit počet exportovaných řádků (od 1 do 39, na řádku 40 je slovo, které je v korpusu SYN2010 pouze devětkrát). Zvolte formát XLSX a data uložte. V okně, které se vám automaticky zobrazí, stačí už jen zvolit, zda chcete soubor otevřít ve formátu Excel (pozor, v tom případě není zatím uložený!), nebo ho rovnou uložit mezi své soubory.+V korpusu SYN2020 najděte nejčastější pravostranná doplnění k výše zmíněnému adjektivu //červený//. V nabídce **Frekvence → Vlastní** zvolte atribut: lemma, zaškrtnout //Nerozlišovat velikost//, pozice: ''1R''V horní části výsledné tabulky vidíme, že takových lemmat je téměř 2700Řekněme, že nás ale zajímají jen takové kolokáty, která se v daném korpusu vyskytují alespoň padesátkrát. Při ukládání zvolte položku **Uložit → Vlastní**, jež umožní omezit počet exportovaných řádků (shodou okolností jich bude přesně padesát, tj. zadáme od 1 do 50, na řádku 51 je slovo, které je v daném korpusu pouze 47krát, což snadno zjistíte přesunem na následující stránku soupisu). Zvolte formát XLSX a data uložte. V okně, které se automaticky zobrazí, stačí už jen zvolit, zda chcete soubor otevřít ve formátu Excel (pozor, v tom případě není zatím uložený!), nebo ho rovnou uložit mezi své soubory.
  
 ===== Vyzkoušejte si na závěr ===== ===== Vyzkoušejte si na závěr =====
  
 <WRAP round help 60%> <WRAP round help 60%>
-  - V korpusu SYN2015 vyhledejte část slova //pes// a zjistěte, která lemmata obsahující tuto sekvenci znaků jsou nejfrekventovanější. +  - Vytvořte frekvenční distribuci všech předložek bezprostředně předcházejících lemmatu //vědomí// v korpusu SYN2020.
-  - Vytvořte frekvenční distribuci všech předložek bezprostředně předcházejících lemmatu //vědomí// v korpusu SYN2010.+
   - Jak se liší výskyt slova //vole// v mluvě mužů a žen? Opřete se o frekvenční distribuce v korpusech řady ORAL.   - Jak se liší výskyt slova //vole// v mluvě mužů a žen? Opřete se o frekvenční distribuce v korpusech řady ORAL.