====== Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů ====== Dotazy v korpusu [[cnk:schola2010|SCHOLA2010]] můžeme zadávat pomocí přístupu do korpusu přes webové rozhraní [[https://www.korpus.cz/kontext|KonText]]. ===== Vytváření subkorpusů (pro přihlášené uživatele) ===== Jazykový materiál v korpusu SCHOLA2010 lze omezit podle toho, jaký cíl má naše vyhledávání. Uživatel si může podle různých kritérií (i podle jejich kombinací) vytvořit subkorpus, se kterým bude dále pracovat (subkorpus může zůstat uživateli po přihlášení nastaven v seznamu ostatních korpusů nebo subkorpusů). Podrobnosti o subkorpusech a jejich tvorbě lze nalézt v [[manualy:kontext:subkorpus|manuálu]] k rozhraní KonText nebo v [[kurz:subkorpusy|7. lekci]] kurzu práce s ČNK. ==== Přístup do korpusu přes rozhraní KonText ==== Chceme-li vyhledávat v korpusu SCHOLA2010 pomocí [[https://www.korpus.cz/kontext|KonTextu]], zvolíme v synchronních mluvených korpusech Specializované a korpus SCHOLA2010. Dole klikneme na položku **Omezit hledání** a objeví se nám zaškrtávací pole s tabulkami (nabídka je vytvořena podle [[cnk:sociolingvisticke_znacky_a_charakteristiky_v_korpusu_schola2010|Sociolingvistických a didaktických značek v korpusu SCHOLA2010]]). Jejich výběrem si můžeme dotaz omezit a vyhledat potřebné údaje. Jestliže si chceme vytvořit svůj subkorpus trvalého charakteru, postupujeme následujícím způsobem: Př.: **subkorpus -- žáci** (mluvčí – všichni žáci z korpusu SCHOLA2010) Do dotazovacího řádku zadáme příslušný dotaz, kterým chceme v korpusu vyhledat potřebné údaje, a odentrujeme. Tak získáme výsledek dotazu z celého korpusu. Subkorpus si vytvoříme pomocí volby **Subkorpusy → Vytvořit nový subkorpus** v nabídce nahoře, v nové kartě v příslušném okénku vyplníme jméno subkorpusu, např. //žáci//. V nabídnuté tabulce vybereme sociolingvistickou značku //sp.osoba// a zaškrtneme **žák**, potom dole pod tabulkami zvolíme **Vytvořit subkorpus**. Objeví se nám karta s přehledem vytvořených subkorpusů. Zpět k dotazu se vrátíme tak, že v nabídce nahoře klikneme na **Dotaz → Nový dotaz**. Vpravo od volby Korpus je nabídka //Celý korpus// spolu s názvy vytvořených subkorpusů: zvolíme subkorpus //žáci// a zadáme do dotazovacího řádku příslušný dotaz, kterým chceme vyhledat potřebné údaje v příslušném subkorpusu. Př.: **subkorpus -- Čechy** (všechny sondy z regionu Čechy) Postupujeme stejným způsobem jako v předchozím případě. V nabídce sociolingvistických údajů zaškrtneme u značky doc.region položku **Čechy** a nezapomeneme do kolonky **Název nového subkorpusu** napsat jeho jméno – např. //Čechy//, dole potvrdíme kliknutím na **Vytvořit subkorpus**. Na základě následujícího postupu si můžeme vytvořit subkorpusy na úrovni sondy – např. podle roků pořízení sondy, jednotlivých regionů (Čechy, nebo Morava), nářečních oblastí (středočeská, jihozápodočeská, východomoravská atd.), podle místa pořízení sondy (Praha atd.), velikosti sídla (nad 100 tis, méně než 5 tis. atd.) – dále na úrovni školy (ZŠ, G, SOŠ atd.), třídy nebo ročníku (1., 2, atd.), vyučovacího předmětu (Čjl, Ma, Fy atd.), vyučovací hodiny (1. hodina, 2. hodina atd.) a mluvčího (muž, žena; učitel, žák; věk mluvčího atd.). Při sestavování subkorpusů musíme dodržovat přesný postup. Bohužel nelze kombinovat podmínky z různých úrovní sociolingvistické anotace, např. //doc.// (dokument) a //sp.// (mluvčí) nebo //sk.// (škola) a //sp.// (mluvčí) atd. === Kombinace více podmínek na stejné úrovni === Př.: **subkorpus -- žákyně do 15 let** Postupujeme stejným způsobem jako dosud. V nabídce sociolingvistických údajů zaškrtneme u značky //sp.pohlavi// položku **Z** a u //sp.vek_z// vybereme položky **do 11 let** a **12--15 let**. Nezapomeneme nový subkorpus pojmenovat, např. //žákyňky//, dole potvrdíme kliknutím na **Vytvořit subkorpus**. Tímto způsobem můžeme kombinovat různé didaktické a sociolingvistické údaje a vytvářet si subkorpusy, ale pouze na úrovni jednoho typu značení (//doc.//, //sk.//, //tr.//, //pr.//, //vh.//, //sp.//). ===== Vyhledávání v korpusu SCHOLA2010 pomocí podmínek ===== Materiál v korpusu si můžeme omezit také pomocí podmínek (jiný způsob tvorby subkorpusů), které zadáváme přímo jako dotazy přes KonText. **Výhodou tohoto postupu je, že uživatel korpusu může kombinovat podmínky z různých úrovní sociolingvistických anotací.** Kromě toho lze vyhledaný materiál dále omezovat pomocí [[manualy:kontext:filtr|filtrů]]. Při vyhledávání různých jevů se dají kombinovat už nastavené subkorpusy a omezující podmínky obsažené v zadávaných dotazech. ==== Tvorba dotazu ==== (typ dotazu CQL) **Všechny pozice** (všechna slova, značky atd.) ve vytvořeném subkorpusu lze nalézt dotazem:\\ ''[word=".*"]''\\ ===Dotazy obsahující podmínky na stejné úrovni=== Dotaz s **jednou** podmínkou ([[pojmy:within|within]]):\\ ''[word=".*"] within "Z"/>'' (zobrazí vše, co řekly ženy)\\ Dotaz na **konkrétní slovo**:\\ ''[word="vlastně"] within "Z"/>'' (zobrazí všechna //vlastně// řečená ženami)\\ **Kombinace více podmínek** na stejné úrovni:\\ ''[word=".*"] within "učitel" | osoba="cizí dospělá osoba"/>''\\ (zobrazí vše, co řekli učitelé a cizí dospělé osoby)\\ ===Dotazy obsahující více podmínek z různých úrovní=== **a) na úrovni jednoho typu anotace**\\ ''[word=".*"] within "učitel" & pohlavi="Z"/>'' (zobrazí vše, co řekly učitelky)\\ ''[word="vole"] within "učitel" & pohlavi="M"/>'' (zobrazí všechna //vole//, která řekli učitelé – muži)\\ **b) na úrovni různých typů anotace**\\ ''[word=".*"] within "Čjl"/> within "učitel"/>'' (zobrazí vše, co řekli učitelé a učitelky češtiny)\\ === Dotazy pomocí podmínek a filtrů=== Př.: **chceme najít vše, co řekly žákyně 1. třídy**\\ ''[word=".*"] within "Z"/>''\\ **P-filtr**\\ ''[word=".*"] within "žák"/>''\\ **P-filtr**\\ ''[word=".*"] within "1."/''> Pozn.: Nastavit P-filtr tak, aby byl rozsah **od 0 do 0**, potom zaškrtnout volbu **včetně KWIC**.\\ Př.: **chceme najít všechna //vlastně// řečená učitelkami češtiny na gymnáziích**\\ ''[word="vlastně"] within "Z"/>''\\ **P-filtr**\\ ''[word="vlastně"] within "učitel"/>''\\ **P-filtr**\\ ''[word="vlastně"] within "Čjl"/>''\\ **P-filtr**\\ ''[word="vlastně"] within "G"| typ1="G víceleté"/>''\\ === Zjednodušování podmínek v dotazech === V zadávaných dotazech můžeme složitější podmínky zjednodušit (případně upravit) pomocí [[pojmy:regularni_vyrazy|regulárních výrazů]]. **Dotaz – zadání části podmínky**\\ ''[word=".*"] within "standardní hodina \(cca 45 min\)"/>''\\ ''[word=".*"] within "stan.*"/>'' **Dotaz – nahrazení libovolného znaku v podmínce tečkou**\\ ''[word=".*"] within "převážně slohově-komunikační hodina"/>''\\ ''[word=".*"] within "převážně slohově.komunikační hodina"/>''\\ ''[word=".*"] within "převážně sloh.*"/>''\\ Pozn.: Výsledky zadaných dotazů si můžeme kontrolovat také pomocí volby **Frekvence → Vlastní → Podle typů textů**. -- //Hana Goláňová//