Obsah

Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů

Dotazy v korpusu SCHOLA2010 můžeme zadávat pomocí přístupu do korpusu přes webové rozhraní KonText.

Vytváření subkorpusů (pro přihlášené uživatele)

Jazykový materiál v korpusu SCHOLA2010 lze omezit podle toho, jaký cíl má naše vyhledávání. Uživatel si může podle různých kritérií (i podle jejich kombinací) vytvořit subkorpus, se kterým bude dále pracovat (subkorpus může zůstat uživateli po přihlášení nastaven v seznamu ostatních korpusů nebo subkorpusů). Podrobnosti o subkorpusech a jejich tvorbě lze nalézt v manuálu k rozhraní KonText nebo v 7. lekci kurzu práce s ČNK.

Přístup do korpusu přes rozhraní KonText

Chceme-li vyhledávat v korpusu SCHOLA2010 pomocí KonTextu, zvolíme v synchronních mluvených korpusech Specializované a korpus SCHOLA2010. Dole klikneme na položku Omezit hledání a objeví se nám zaškrtávací pole s tabulkami (nabídka je vytvořena podle Sociolingvistických a didaktických značek v korpusu SCHOLA2010). Jejich výběrem si můžeme dotaz omezit a vyhledat potřebné údaje. Jestliže si chceme vytvořit svůj subkorpus trvalého charakteru, postupujeme následujícím způsobem:

Př.: subkorpus – žáci (mluvčí – všichni žáci z korpusu SCHOLA2010)

Do dotazovacího řádku zadáme příslušný dotaz, kterým chceme v korpusu vyhledat potřebné údaje, a odentrujeme. Tak získáme výsledek dotazu z celého korpusu. Subkorpus si vytvoříme pomocí volby Subkorpusy → Vytvořit nový subkorpus v nabídce nahoře, v nové kartě v příslušném okénku vyplníme jméno subkorpusu, např. žáci.

V nabídnuté tabulce vybereme sociolingvistickou značku sp.osoba a zaškrtneme žák, potom dole pod tabulkami zvolíme Vytvořit subkorpus. Objeví se nám karta s přehledem vytvořených subkorpusů. Zpět k dotazu se vrátíme tak, že v nabídce nahoře klikneme na Dotaz → Nový dotaz. Vpravo od volby Korpus je nabídka Celý korpus spolu s názvy vytvořených subkorpusů: zvolíme subkorpus žáci a zadáme do dotazovacího řádku příslušný dotaz, kterým chceme vyhledat potřebné údaje v příslušném subkorpusu.

Př.: subkorpus – Čechy (všechny sondy z regionu Čechy)

Postupujeme stejným způsobem jako v předchozím případě. V nabídce sociolingvistických údajů zaškrtneme u značky doc.region položku Čechy a nezapomeneme do kolonky Název nového subkorpusu napsat jeho jméno – např. Čechy, dole potvrdíme kliknutím na Vytvořit subkorpus.

Na základě následujícího postupu si můžeme vytvořit subkorpusy na úrovni sondy – např. podle roků pořízení sondy, jednotlivých regionů (Čechy, nebo Morava), nářečních oblastí (středočeská, jihozápodočeská, východomoravská atd.), podle místa pořízení sondy (Praha atd.), velikosti sídla (nad 100 tis, méně než 5 tis. atd.) – dále na úrovni školy (ZŠ, G, SOŠ atd.), třídy nebo ročníku (1., 2, atd.), vyučovacího předmětu (Čjl, Ma, Fy atd.), vyučovací hodiny (1. hodina, 2. hodina atd.) a mluvčího (muž, žena; učitel, žák; věk mluvčího atd.).

Při sestavování subkorpusů musíme dodržovat přesný postup. Bohužel nelze kombinovat podmínky z různých úrovní sociolingvistické anotace, např. doc. (dokument) a sp. (mluvčí) nebo sk. (škola) a sp. (mluvčí) atd.

Kombinace více podmínek na stejné úrovni

Př.: subkorpus – žákyně do 15 let

Postupujeme stejným způsobem jako dosud. V nabídce sociolingvistických údajů zaškrtneme u značky sp.pohlavi položku Z a u sp.vek_z vybereme položky do 11 let a 12–15 let. Nezapomeneme nový subkorpus pojmenovat, např. žákyňky, dole potvrdíme kliknutím na Vytvořit subkorpus.

Tímto způsobem můžeme kombinovat různé didaktické a sociolingvistické údaje a vytvářet si subkorpusy, ale pouze na úrovni jednoho typu značení (doc., sk., tr., pr., vh., sp.).

Vyhledávání v korpusu SCHOLA2010 pomocí podmínek

Materiál v korpusu si můžeme omezit také pomocí podmínek (jiný způsob tvorby subkorpusů), které zadáváme přímo jako dotazy přes KonText. Výhodou tohoto postupu je, že uživatel korpusu může kombinovat podmínky z různých úrovní sociolingvistických anotací. Kromě toho lze vyhledaný materiál dále omezovat pomocí filtrů. Při vyhledávání různých jevů se dají kombinovat už nastavené subkorpusy a omezující podmínky obsažené v zadávaných dotazech.

Tvorba dotazu

(typ dotazu CQL)

Všechny pozice (všechna slova, značky atd.) ve vytvořeném subkorpusu lze nalézt dotazem:
[word=".*"]

Dotazy obsahující podmínky na stejné úrovni

Dotaz s jednou podmínkou (within):

[word=".*"] within <sp pohlavi="Z"/> (zobrazí vše, co řekly ženy)

Dotaz na konkrétní slovo:
[word="vlastně"] within <sp pohlavi="Z"/> (zobrazí všechna vlastně řečená ženami)

Kombinace více podmínek na stejné úrovni:
[word=".*"] within <sp osoba="učitel" | osoba="cizí dospělá osoba"/>
(zobrazí vše, co řekli učitelé a cizí dospělé osoby)

Dotazy obsahující více podmínek z různých úrovní

a) na úrovni jednoho typu anotace

[word=".*"] within <sp osoba="učitel" & pohlavi="Z"/> (zobrazí vše, co řekly učitelky)

[word="vole"] within <sp osoba="učitel" & pohlavi="M"/> (zobrazí všechna vole, která řekli učitelé – muži)

b) na úrovni různých typů anotace

[word=".*"] within <pr predmet="Čjl"/> within <sp osoba="učitel"/> (zobrazí vše, co řekli učitelé a učitelky češtiny)

Dotazy pomocí podmínek a filtrů

Př.: chceme najít vše, co řekly žákyně 1. třídy
[word=".*"] within <sp pohlavi="Z"/>
P-filtr
[word=".*"] within <sp osoba="žák"/>
P-filtr
[word=".*"] within <tr trida="1."/>

Pozn.: Nastavit P-filtr tak, aby byl rozsah od 0 do 0, potom zaškrtnout volbu včetně KWIC.

Př.: chceme najít všechna vlastně řečená učitelkami češtiny na gymnáziích
[word="vlastně"] within <sp pohlavi="Z"/>
P-filtr
[word="vlastně"] within <sp osoba="učitel"/>
P-filtr
[word="vlastně"] within <pr predmet="Čjl"/>
P-filtr
[word="vlastně"] within <sk typ1="G"| typ1="G víceleté"/>

Zjednodušování podmínek v dotazech

V zadávaných dotazech můžeme složitější podmínky zjednodušit (případně upravit) pomocí regulárních výrazů.

Dotaz – zadání části podmínky
[word=".*"] within <vh delka="standardní hodina \(cca 45 min\)"/>
[word=".*"] within <vh delka="stan.*"/>

Dotaz – nahrazení libovolného znaku v podmínce tečkou
[word=".*"] within <pr cjl="převážně slohově-komunikační hodina"/>
[word=".*"] within <pr cjl="převážně slohově.komunikační hodina"/>
[word=".*"] within <pr cjl="převážně sloh.*"/>

Pozn.: Výsledky zadaných dotazů si můžeme kontrolovat také pomocí volby Frekvence → Vlastní → Podle typů textů.

Hana Goláňová