Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:schola_vyhledavani_a_subkorpusy [2015/05/11 11:49] – [Přístup do korpusu přes KonText] zuzanakomrskova | cnk:schola_vyhledavani_a_subkorpusy [2021/01/07 12:52] (aktuální) – michalskrabal |
---|
====== Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů ====== | ====== Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů ====== |
| |
Dotazy v korpusu [[cnk:schola2010|SCHOLA2010]] můžeme zadávat pomocí přístupu do korpusu přes webové rozhraní [[https://www.korpus.cz/kontext|KonText]] > Korpus > Specializované korpusy > SCHOLA2010. | Dotazy v korpusu [[cnk:schola2010|SCHOLA2010]] můžeme zadávat pomocí přístupu do korpusu přes webové rozhraní [[https://www.korpus.cz/kontext|KonText]]. |
| |
===== Vytváření subkorpusů (pro registrované uživatele) ===== | ===== Vytváření subkorpusů (pro přihlášené uživatele) ===== |
| |
Jazykový materiál v korpusu SCHOLA2010 lze omezit podle toho, jaký cíl má naše vyhledávání. Uživatel si může podle různých kritérií (i podle jejich kombinací) vytvořit subkorpus, se kterým bude dále pracovat (subkorpus může zůstat uživateli po přihlášení nastaven v seznamu ostatních korpusů nebo subkorpusů). Podrobnosti o subkorpusech a jejich tvorbě lze nalézt v [[manualy:kontext:subkorpus|Manuálu]] k rozhraní KonText nebo v [[kurz:subkorpusy|7.lekci]] kurzu práce s ČNK. | Jazykový materiál v korpusu SCHOLA2010 lze omezit podle toho, jaký cíl má naše vyhledávání. Uživatel si může podle různých kritérií (i podle jejich kombinací) vytvořit subkorpus, se kterým bude dále pracovat (subkorpus může zůstat uživateli po přihlášení nastaven v seznamu ostatních korpusů nebo subkorpusů). Podrobnosti o subkorpusech a jejich tvorbě lze nalézt v [[manualy:kontext:subkorpus|manuálu]] k rozhraní KonText nebo v [[kurz:subkorpusy|7. lekci]] kurzu práce s ČNK. |
| |
==== Přístup do korpusu přes KonText ==== | ==== Přístup do korpusu přes rozhraní KonText ==== |
| |
Když chceme vyhledávat v korpusu SCHOLA2010 pomocí [[https://www.korpus.cz/kontext|KonTextu]], zvolíme v synchronních mluvených korpusech Specializované a korpus SCHOLA2010. Dole klikneme na položku Specifikovat dotaz podle metainformací a objeví se nám zaškrtávací pole s tabulkami (nabídka je vytvořena podle [[cnk:sociolingvisticke_znacky_a_charakteristiky_v_korpusu_schola2010|Sociolingvistických a didaktických značek v korpusu SCHOLA2010]]). Jejich výběrem si můžeme dotaz omezit a vyhledat potřebné údaje. Jestliže si chceme vytvořit svůj subkorpus trvalého charakteru, postupujeme následujícím způsobem: | Chceme-li vyhledávat v korpusu SCHOLA2010 pomocí [[https://www.korpus.cz/kontext|KonTextu]], zvolíme v synchronních mluvených korpusech Specializované a korpus SCHOLA2010. Dole klikneme na položku **Omezit hledání** a objeví se nám zaškrtávací pole s tabulkami (nabídka je vytvořena podle [[cnk:sociolingvisticke_znacky_a_charakteristiky_v_korpusu_schola2010|Sociolingvistických a didaktických značek v korpusu SCHOLA2010]]). Jejich výběrem si můžeme dotaz omezit a vyhledat potřebné údaje. Jestliže si chceme vytvořit svůj subkorpus trvalého charakteru, postupujeme následujícím způsobem: |
| |
Př.: **subkorpus -- žáci** (mluvčí – všichni žáci z korpusu SCHOLA2010)\\ | Př.: **subkorpus -- žáci** (mluvčí – všichni žáci z korpusu SCHOLA2010) |
| |
Do kolonky Dotaz zadáme příslušný dotaz, kterým chceme v korpusu vyhledat potřebné údaje, odentrujeme. Tak získáme výsledek dotazu z celého korpusu. Subkorpus si vytvoříme tak, že v nabídce nahoře najdeme na položku Subkorpusy / Vytvořit nový, objeví se nám karta, kde pod Korpusem vyplníme do kolonky Jméno nového subkorpusu – např. žáci. | Do dotazovacího řádku zadáme příslušný dotaz, kterým chceme v korpusu vyhledat potřebné údaje, a odentrujeme. Tak získáme výsledek dotazu z celého korpusu. Subkorpus si vytvoříme pomocí volby **Subkorpusy → Vytvořit nový subkorpus** v nabídce nahoře, v nové kartě v příslušném okénku vyplníme jméno subkorpusu, např. //žáci//. |
V nabídnuté tabulce vybereme sociolingvistickou značku sp.osoba a zaškrtneme žák, potom dole pod tabulkami zvolíme Vytvořit subkorpus. Objeví se nám karta s přehledem vytvořených subkorpusů. Zpět k dotazu se vrátíme tak, že v nabídce nahoře klikneme na Dotaz > Nový dotaz, a objeví se nám karta Hledat v korpusu. Vpravo vedle položky Korpus je nabídka Celý korpus nebo jsou tam názvy vytvořených subkorpusů, zvolíme subkorpus žáci a zadáme do kolonky Dotaz > Nový dotaz, kterým chceme vyhledat potřebné údaje v příslušném subkorpusu | |
| |
Př.: **subkorpus -- Čechy** (všechny sondy z regionu Čechy)\\ | V nabídnuté tabulce vybereme sociolingvistickou značku //sp.osoba// a zaškrtneme **žák**, potom dole pod tabulkami zvolíme **Vytvořit subkorpus**. Objeví se nám karta s přehledem vytvořených subkorpusů. Zpět k dotazu se vrátíme tak, že v nabídce nahoře klikneme na **Dotaz → Nový dotaz**. Vpravo od volby Korpus je nabídka //Celý korpus// spolu s názvy vytvořených subkorpusů: zvolíme subkorpus //žáci// a zadáme do dotazovacího řádku příslušný dotaz, kterým chceme vyhledat potřebné údaje v příslušném subkorpusu. |
| |
Postupujeme stejným způsobem, jako tomu bylo v předchozím případě. V nabídce sociolingvistických údajů zaškrtneme u značky doc.region položku Čechy a nezapomeneme do kolonky Jméno subkorpusu napsat název nového subkorpusu – např. Čechy, dole potvrdíme kliknutím na Vytvořit subkorpus. | Př.: **subkorpus -- Čechy** (všechny sondy z regionu Čechy) |
| |
| Postupujeme stejným způsobem jako v předchozím případě. V nabídce sociolingvistických údajů zaškrtneme u značky doc.region položku **Čechy** a nezapomeneme do kolonky **Název nového subkorpusu** napsat jeho jméno – např. //Čechy//, dole potvrdíme kliknutím na **Vytvořit subkorpus**. |
| |
Na základě následujícího postupu si můžeme vytvořit subkorpusy na úrovni sondy – např. podle roků pořízení sondy, jednotlivých regionů (Čechy, nebo Morava), nářečních oblastí (středočeská, jihozápodočeská, východomoravská atd.), podle místa pořízení sondy (Praha atd.), velikosti sídla (nad 100 tis, méně než 5 tis. atd.) – dále na úrovni školy (ZŠ, G, SOŠ atd.), třídy nebo ročníku (1., 2, atd.), vyučovacího předmětu (Čjl, Ma, Fy atd.), vyučovací hodiny (1. hodina, 2. hodina atd.) a mluvčího (muž, žena; učitel, žák; věk mluvčího atd.). | Na základě následujícího postupu si můžeme vytvořit subkorpusy na úrovni sondy – např. podle roků pořízení sondy, jednotlivých regionů (Čechy, nebo Morava), nářečních oblastí (středočeská, jihozápodočeská, východomoravská atd.), podle místa pořízení sondy (Praha atd.), velikosti sídla (nad 100 tis, méně než 5 tis. atd.) – dále na úrovni školy (ZŠ, G, SOŠ atd.), třídy nebo ročníku (1., 2, atd.), vyučovacího předmětu (Čjl, Ma, Fy atd.), vyučovací hodiny (1. hodina, 2. hodina atd.) a mluvčího (muž, žena; učitel, žák; věk mluvčího atd.). |
| |
**Při sestavování sbukorpusů musíme dodržovat přesný postup. Bohužel nelze kombinovat podmínky z různých úrovní sociolingvistických anotací, např. //doc.// (dokument) a //sp.// (mluvčí) nebo //sk.// (škola) a //sp.// (mluvčí) atd.** | <WRAP round important 68%> |
| Při sestavování subkorpusů musíme dodržovat přesný postup. Bohužel nelze kombinovat podmínky z různých úrovní sociolingvistické anotace, např. //doc.// (dokument) a //sp.// (mluvčí) nebo //sk.// (škola) a //sp.// (mluvčí) atd. |
| </WRAP> |
| |
=== Kombinace více podmínek na stejné úrovni === | === Kombinace více podmínek na stejné úrovni === |
| |
Př. **subkorpus -- žákyně do 15 let** | Př.: **subkorpus -- žákyně do 15 let** |
| |
Postupujeme stejným způsobem, jako tomu bylo v předchozím případě. V nabídce sociolingvistických údajů zaškrtneme u značky sp.pohlavi položku Z a u sp.vek_z vybereme položky do 11 let a 12 - 15 let. Nezapomeneme do kolonky Jméno subkorpusu napsat název nového subkorpusu – např. žákyně do 15 let, dole potvrdíme kliknutím na Vytvořit subkorpus. | Postupujeme stejným způsobem jako dosud. V nabídce sociolingvistických údajů zaškrtneme u značky //sp.pohlavi// položku **Z** a u //sp.vek_z// vybereme položky **do 11 let** a **12--15 let**. Nezapomeneme nový subkorpus pojmenovat, např. //žákyňky//, dole potvrdíme kliknutím na **Vytvořit subkorpus**. |
| |
**Tímto způsobem můžeme kombinovat různé didaktické a sociolingvistické údaje a vytvářet si subkorpusy, ale pouze na úrovni jednoho typu značení (//doc.//, //sk.//, //tr.//, //pr.//, //vh.//, //sp.//).** | Tímto způsobem můžeme kombinovat různé didaktické a sociolingvistické údaje a vytvářet si subkorpusy, ale pouze na úrovni jednoho typu značení (//doc.//, //sk.//, //tr.//, //pr.//, //vh.//, //sp.//). |
| |
===== Vyhledávání v korpusu SCHOLA2010 pomocí podmínek ===== | ===== Vyhledávání v korpusu SCHOLA2010 pomocí podmínek ===== |
| |
Materiál v korpusu si můžeme omezit také pomocí podmínek (jiný způsob tvorby subkorpusů), které zadáváme přímo jako dotazy přes KonText. **Výhodou tohoto postupu je, že uživatel korpusu může kombinovat podmínky z různých úrovní sociolingvistických anotací.** Kromě toho lze vyhledaný materiál dále omezovat pomocí filtrů. Při vyhledávání různých jevů se dají kombinovat už nastavené subkorpusy a omezující podmínky obsažené v zadávaných dotazech. | Materiál v korpusu si můžeme omezit také pomocí podmínek (jiný způsob tvorby subkorpusů), které zadáváme přímo jako dotazy přes KonText. **Výhodou tohoto postupu je, že uživatel korpusu může kombinovat podmínky z různých úrovní sociolingvistických anotací.** Kromě toho lze vyhledaný materiál dále omezovat pomocí [[manualy:kontext:filtr|filtrů]]. Při vyhledávání různých jevů se dají kombinovat už nastavené subkorpusy a omezující podmínky obsažené v zadávaných dotazech. |
| |
==== Tvorba dotazu ==== | ==== Tvorba dotazu ==== |
| |
(typ dotazu CQL) | (typ dotazu CQL) |
| |
**Všechny pozice** (všechna slova, značky atd.) ve vytvořeném subkorpusu lze nalézt dotazem:\\ | **Všechny pozice** (všechna slova, značky atd.) ve vytvořeném subkorpusu lze nalézt dotazem:\\ |
[word=".*"]\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>]''\\ |
| |
===Dotazy obsahující podmínky na stejné úrovni=== | ===Dotazy obsahující podmínky na stejné úrovni=== |
| |
Dotaz s **jednou** podmínkou:\\ | Dotaz s **jednou** podmínkou ([[pojmy:within|within]]):\\ |
[word=".*"] within <sp pohlavi="Z"/> (zobrazí vše, co řekly ženy)\\ | |
| ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <sp pohlavi=<nowiki>"</nowiki>Z<nowiki>"</nowiki>/>'' (zobrazí vše, co řekly ženy)\\ |
| |
Dotaz na **konkrétní slovo**:\\ | Dotaz na **konkrétní slovo**:\\ |
[word="vlastně"] within <sp pohlavi="Z"/> (zobrazí všechna //vlastně// řečená ženami)\\ | ''[word=<nowiki>"</nowiki>vlastně<nowiki>"</nowiki>] within <sp pohlavi=<nowiki>"</nowiki>Z<nowiki>"</nowiki>/>'' (zobrazí všechna //vlastně// řečená ženami)\\ |
| |
**Kombinace více podmínek** na stejné úrovni:\\ | **Kombinace více podmínek** na stejné úrovni:\\ |
[word=".*"] within <sp osoba="učitel"| osoba="cizí dospělá osoba"/>\\ (zobrazí vše, co řekli učitelé a cizí dospělé osoby)\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <sp osoba=<nowiki>"</nowiki>učitel<nowiki>"</nowiki> | osoba=<nowiki>"</nowiki>cizí dospělá osoba<nowiki>"</nowiki>/>''\\ (zobrazí vše, co řekli učitelé a cizí dospělé osoby)\\ |
| |
===Dotazy obsahující více podmínek z různých úrovní=== | ===Dotazy obsahující více podmínek z různých úrovní=== |
| |
**a) na úrovni jednoho typu anotací**\\ | **a) na úrovni jednoho typu anotace**\\ |
| |
[word=".*"] within <sp osoba="učitel" & pohlavi="Z"/> (zobrazí vše, co řekly učitelky)\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <sp osoba=<nowiki>"</nowiki>učitel<nowiki>"</nowiki> & pohlavi=<nowiki>"</nowiki>Z<nowiki>"</nowiki>/>'' (zobrazí vše, co řekly učitelky)\\ |
| |
[word="vole"] within <sp osoba="učitel"& pohlavi="M"/> (zobrazí všechna //vole//, která řekli učitelé – muži)\\ | ''[word=<nowiki>"</nowiki>vole<nowiki>"</nowiki>] within <sp osoba=<nowiki>"</nowiki>učitel<nowiki>"</nowiki> & pohlavi=<nowiki>"</nowiki>M<nowiki>"</nowiki>/>'' (zobrazí všechna //vole//, která řekli učitelé – muži)\\ |
| |
**b) na úrovni různých typů anotací**\\ | **b) na úrovni různých typů anotace**\\ |
| |
[word=".*"] within <pr predmet="Čjl"/> within <sp osoba="učitel"/> (zobrazí vše, co řekli učitelé a učitelky češtiny)\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <pr predmet=<nowiki>"</nowiki>Čjl<nowiki>"</nowiki>/> within <sp osoba=<nowiki>"</nowiki>učitel<nowiki>"</nowiki>/>'' (zobrazí vše, co řekli učitelé a učitelky češtiny)\\ |
| |
=== Dotazy pomocí podmínek a filtrů=== | === Dotazy pomocí podmínek a filtrů=== |
Př. **chceme najít vše, co řekly žákyně 1. třídy**\\ | Př.: **chceme najít vše, co řekly žákyně 1. třídy**\\ |
[word=".*"] within <sp pohlavi="Z"/>\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <sp pohlavi=<nowiki>"</nowiki>Z<nowiki>"</nowiki>/>''\\ |
**P-filtr**\\ | **P-filtr**\\ |
[word=".*"] within <sp osoba="žák"/>\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <sp osoba=<nowiki>"</nowiki>žák<nowiki>"</nowiki>/>''\\ |
**P-filtr**\\ | **P-filtr**\\ |
[word=".*"] within <tr trida="1."/> | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <tr trida=<nowiki>"</nowiki>1.<nowiki>"</nowiki>/''> |
| |
Pozn.: Nastavit P filtr tak, aby byl rozsah **od 0 do 0**, potom zaškrtnout //**"včetně KWIC"**//.\\ | Pozn.: Nastavit P-filtr tak, aby byl rozsah **od 0 do 0**, potom zaškrtnout volbu **včetně KWIC**.\\ |
| |
Př. **chceme najít všechna //vlastně// řečená učitelkami češtiny na gymnáziích**\\ | Př.: **chceme najít všechna //vlastně// řečená učitelkami češtiny na gymnáziích**\\ |
[word="vlastně"] within <sp pohlavi="Z"/>\\ | ''[word=<nowiki>"</nowiki>vlastně<nowiki>"</nowiki>] within <sp pohlavi=<nowiki>"</nowiki>Z<nowiki>"</nowiki>/>''\\ |
**P-filtr**\\ | **P-filtr**\\ |
[word="vlastně"] within <sp osoba="učitel"/>\\ | ''[word=<nowiki>"</nowiki>vlastně<nowiki>"</nowiki>] within <sp osoba=<nowiki>"</nowiki>učitel<nowiki>"</nowiki>/>''\\ |
**P-filtr**\\ | **P-filtr**\\ |
[word="vlastně"] within <pr predmet="Čjl"/>\\ | ''[word=<nowiki>"</nowiki>vlastně<nowiki>"</nowiki>] within <pr predmet=<nowiki>"</nowiki>Čjl<nowiki>"</nowiki>/>''\\ |
**P-filtr**\\ | **P-filtr**\\ |
[word="vlastně"] within <sk typ1="G"| typ1="G víceleté"/>\\ | ''[word=<nowiki>"</nowiki>vlastně<nowiki>"</nowiki>] within <sk typ1=<nowiki>"</nowiki>G<nowiki>"</nowiki>| typ1=<nowiki>"</nowiki>G víceleté<nowiki>"</nowiki>/>''\\ |
| |
=== Zjednodušování podmínek v dotazech === | === Zjednodušování podmínek v dotazech === |
| |
V zadávaných dotazech můžeme složitější podmínky zjednodušit, příp. upravit, pomocí [[pojmy:regularni_vyrazy|regulárních výrazů]]. | V zadávaných dotazech můžeme složitější podmínky zjednodušit (případně upravit) pomocí [[pojmy:regularni_vyrazy|regulárních výrazů]]. |
| |
**Dotaz – zadání části podmínky**\\ | **Dotaz – zadání části podmínky**\\ |
[word=".*"] within <vh delka="standardní hodina \(cca 45 min\)"/>\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <vh delka=<nowiki>"</nowiki>standardní hodina \(cca 45 min\)<nowiki>"</nowiki>/>''\\ |
[word=".*"] within <vh delka="stan.*"/> | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <vh delka=<nowiki>"</nowiki>stan.*<nowiki>"</nowiki>/>'' |
| |
**Dotaz – nahrazení libovolného znaku v podmínce tečkou**\\ | **Dotaz – nahrazení libovolného znaku v podmínce tečkou**\\ |
[word=".*"] within <pr cjl="převážně slohově-komunikační hodina"/>\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <pr cjl=<nowiki>"</nowiki>převážně slohově-komunikační hodina<nowiki>"</nowiki>/>''\\ |
[word=".*"] within <pr cjl="převážně slohově.komunikační hodina"/>\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <pr cjl=<nowiki>"</nowiki>převážně slohově.komunikační hodina<nowiki>"</nowiki>/>''\\ |
[word=".*"] within <pr cjl="převážně sloh.*"/>\\ | ''[word=<nowiki>"</nowiki>.*<nowiki>"</nowiki>] within <pr cjl=<nowiki>"</nowiki>převážně sloh.*<nowiki>"</nowiki>/>''\\ |
| |
Pozn.: Výsledek zadaných dotazů si můžeme kontrolovat také pomocí **Frekvence > Vlastní > Frekvenční distribuce podle metainformací.** | Pozn.: Výsledky zadaných dotazů si můžeme kontrolovat také pomocí volby **Frekvence → Vlastní → Podle typů textů**. |
| |
-- //Hana Goláňová// | -- //Hana Goláňová// |