Toto je starší verze dokumentu!


Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů

Dotazy v korpusu SCHOLA2010 můžeme zadávat pomocí přístupu do korpusu přes webové rozhraní KonText > Korpus > Specializované korpusy > SCHOLA2010.

Vytváření subkorpusů (pro registrované uživatele)

Jazykový materiál v korpusu SCHOLA2010 lze omezit podle toho, jaký cíl má naše vyhledávání. Uživatel si může podle různých kritérií (i podle jejich kombinací) vytvořit subkorpus, se kterým bude dále pracovat (subkorpus může zůstat uživateli po přihlášení nastaven v seznamu ostatních korpusů nebo subkorpusů). Podrobnosti o subkorpusech a jejich tvorbě lze nalézt v Manuálu k rozhraní KonText nebo v 7.lekci kurzu práce s ČNK.

Přístup do korpusu přes KonText

Když chceme vyhledávat v korpusu SCHOLA2010 pomocí KonTextu, zvolíme v synchronních mluvených korpusech Specializované a korpus SCHOLA2010. Dole klikneme na položku Specifikovat dotaz podle metainformací a objeví se nám zaškrtávací pole s tabulkami (nabídka je vytvořena podle Sociolingvistických a didaktických značek v korpusu SCHOLA2010). Jejich výběrem si můžeme dotaz omezit a vyhledat potřebné údaje. Jestliže si chceme vytvořit svůj subkorpus trvalého charakteru, postupujeme následujícím způsobem:

Př.: subkorpus – žáci (mluvčí – všichni žáci z korpusu SCHOLA2010)

Do kolonky Dotaz zadáme příslušný dotaz, kterým chceme v korpusu vyhledat potřebné údaje, odentrujeme. Tak získáme výsledek dotazu z celého korpusu. Subkorpus si vytvoříme tak, že v nabídce nahoře najdeme na položku Subkorpusy / Vytvořit nový, objeví se nám karta, kde pod Korpusem vyplníme do kolonky Jméno nového subkorpusu – např. žáci. V nabídnuté tabulce vybereme sociolingvistickou značku sp.osoba a zaškrtneme žák, potom dole pod tabulkami zvolíme Vytvořit subkorpus. Objeví se nám karta s přehledem vytvořených subkorpusů. Zpět k dotazu se vrátíme tak, že v nabídce nahoře klikneme na Dotaz > Nový dotaz, a objeví se nám karta Hledat v korpusu. Vpravo vedle položky Korpus je nabídka Celý korpus nebo jsou tam názvy vytvořených subkorpusů, zvolíme subkorpus žáci a zadáme do kolonky Dotaz > Nový dotaz, kterým chceme vyhledat potřebné údaje v příslušném subkorpusu

Př.: subkorpus – Čechy (všechny sondy z regionu Čechy)

Postupujeme stejným způsobem, jako tomu bylo v předchozím případě. V nabídce sociolingvistických údajů zaškrtneme u značky doc.region položku Čechy a nezapomeneme do kolonky Jméno subkorpusu napsat název nového subkorpusu – např. Čechy, dole potvrdíme kliknutím na Vytvořit subkorpus.

Na základě následujícího postupu si můžeme vytvořit subkorpusy na úrovni sondy – např. podle roků pořízení sondy, jednotlivých regionů (Čechy, nebo Morava), nářečních oblastí (středočeská, jihozápodočeská, východomoravská atd.), podle místa pořízení sondy (Praha atd.), velikosti sídla (nad 100 tis, méně než 5 tis. atd.) – dále na úrovni školy (ZŠ, G, SOŠ atd.), třídy nebo ročníku (1., 2, atd.), vyučovacího předmětu (Čjl, Ma, Fy atd.), vyučovací hodiny (1. hodina, 2. hodina atd.) a mluvčího (muž, žena; učitel, žák; věk mluvčího atd.).

Při sestavování sbukorpusů musíme dodržovat přesný postup. Bohužel nelze kombinovat podmínky z různých úrovní sociolingvistických anotací, např. doc. (dokument) a sp. (mluvčí) nebo sk. (škola) a sp. (mluvčí) atd.

Kombinace více podmínek na stejné úrovni

Př. subkorpus – žákyně do 15 let

Postupujeme stejným způsobem, jako tomu bylo v předchozím případě. V nabídce sociolingvistických údajů zaškrtneme u značky sp.pohlavi položku Z a u sp.vek_z vybereme položky do 11 let a 12 - 15 let. Nezapomeneme do kolonky Jméno subkorpusu napsat název nového subkorpusu – např. žákyně do 15 let, dole potvrdíme kliknutím na Vytvořit subkorpus.

Tímto způsobem můžeme kombinovat různé didaktické a sociolingvistické údaje a vytvářet si subkorpusy, ale pouze na úrovni jednoho typu značení (doc., sk., tr., pr., vh., sp.).

Vyhledávání v korpusu SCHOLA2010 pomocí podmínek

Materiál v korpusu si můžeme omezit také pomocí podmínek (jiný způsob tvorby subkorpusů), které zadáváme přímo jako dotazy přes KonText. Výhodou tohoto postupu je, že uživatel korpusu může kombinovat podmínky z různých úrovní sociolingvistických anotací. Kromě toho lze vyhledaný materiál dále omezovat pomocí filtrů. Při vyhledávání různých jevů se dají kombinovat už nastavené subkorpusy a omezující podmínky obsažené v zadávaných dotazech.

Tvorba dotazu

(typ dotazu CQL)

Všechny pozice (všechna slova, značky atd.) ve vytvořeném subkorpusu lze nalézt dotazem:
[word=".*"]

Dotazy obsahující podmínky na stejné úrovni

Dotaz s jednou podmínkou:

[word=".*"] within <sp pohlavi="Z"/> (zobrazí vše, co řekly ženy)

Dotaz na konkrétní slovo:
[word="vlastně"] within <sp pohlavi="Z"/> (zobrazí všechna vlastně řečená ženami)

Kombinace více podmínek na stejné úrovni:
[word=".*"] within <sp osoba="učitel"| osoba="cizí dospělá osoba"/>
(zobrazí vše, co řekli učitelé a cizí dospělé osoby)

Dotazy obsahující více podmínek z různých úrovní

a) na úrovni jednoho typu anotací

[word=".*"] within <sp osoba="učitel" & pohlavi="Z"/> (zobrazí vše, co řekly učitelky)

[word="vole"] within <sp osoba="učitel"& pohlavi="M"/> (zobrazí všechna vole, která řekli učitelé – muži)

b) na úrovni různých typů anotací

[word=".*"] within <pr predmet="Čjl"/> within <sp osoba="učitel"/> (zobrazí vše, co řekli učitelé a učitelky češtiny)

Dotazy pomocí podmínek a filtrů

Př. chceme najít vše, co řekly žákyně 1. třídy
[word=".*"] within <sp pohlavi="Z"/>
P-filtr
[word=".*"] within <sp osoba="žák"/>
P-filtr
[word=".*"] within <tr trida="1."/>

Pozn.: Nastavit P filtr tak, aby byl rozsah od 0 do 0, potom zaškrtnout „včetně KWIC.

Př. chceme najít všechna vlastně řečená učitelkami češtiny na gymnáziích
[word="vlastně"] within <sp pohlavi="Z"/>
P-filtr
[word="vlastně"] within <sp osoba="učitel"/>
P-filtr
[word="vlastně"] within <pr predmet="Čjl"/>
P-filtr
[word="vlastně"] within <sk typ1="G"| typ1="G víceleté"/>

Zjednodušování podmínek v dotazech

V zadávaných dotazech můžeme složitější podmínky zjednodušit, příp. upravit, pomocí regulárních výrazů.

Dotaz – zadání části podmínky
[word=".*"] within <vh delka="standardní hodina \(cca 45 min\)"/>
[word=".*"] within <vh delka="stan.*"/>

Dotaz – nahrazení libovolného znaku v podmínce tečkou
[word=".*"] within <pr cjl="převážně slohově-komunikační hodina"/>
[word=".*"] within <pr cjl="převážně slohově.komunikační hodina"/>
[word=".*"] within <pr cjl="převážně sloh.*"/>

Pozn.: Výsledek zadaných dotazů si můžeme kontrolovat také pomocí Frekvence > Vlastní > Frekvenční distribuce podle metainformací.

Hana Goláňová