====== 1 Práce s korpusem Dialekt ====== Následující text přináší tipy pro základní práci s korpusem [[cnk:dialekt|Dialekt]] v rozhraní [[manualy:kontext:index|KonText]]. Podrobné vysvětlení jednotlivých typů dotazů a položek najdete také v [[manualy:kontext:index|Manuálu pro rozhraní KonText]] a v [[kurz:uvod|Kurzu práce s korpusem]], zejména pak v jeho specializovaných částech [[kurz:hledani_v_mluvenych_korpusech|Specifika vyhledávání v mluvených korpusech]] a [[kurz:hledani_v_paralelnim_korpusu|Specifika vyhledávání v paralelním korpusu]]. Korpus Dialekt obsahuje přepisy na dvou úrovních, dialektologické a ortografické. Korpusové rozhraní KonText umožňuje přístup k oběma z nich buď zvlášť, nebo současně. Z hlediska rozhraní KonText pak jde o [[pojmy:paralelni|paralelní]] korpusy, které se zobrazují vedle sebe, jako primární si přitom lze zvolit kteroukoli z úrovní. === Volba korpusu === Po přihlášení do KonTextu nejprve vybereme korpus, který představuje požadovanou úroveň přepisu korpusu Dialekt. Výběr korpusu se provádí z nabídky, která se objeví po kliknutí na aktuálně zvolený korpus. Po následné volbě **Všechny korpusy** vybereme štítek **mluvený** a v jeho nabídce zvolíme úroveň, která bude primární: buď dialektologickou (**dialekt v1 - dial**), nebo ortografickou (**dialekt v1 - ort**); volba korpusu je obecně popsána v [[manualy:kontext:novy_dotaz#volba_korpusu|této části manuálu]]. K primární úrovni je možné (ale ne nutné) přidat také úroveň sekundární, která se bude zobrazovat paralelně. Tu zvolíme v části **Zarovnané korpusy** rozkliknutím volby **Přidat korpus**, kde se jako jediná možnost zobrazí úroveň, která není zvolena jako primární. Vybereme-li také ji, objeví se samostatný oddíl pro vyhledávání v sekundární úrovni přepisu, který lze pomocí modrého křížku vpravo opět zavřít. Je-li zvolena sekundární úroveň přepisu, zobrazují se výsledky vyhledávání ve dvou sloupcích: levý zobrazuje úroveň zvolenou jako primární (a zároveň modře podbarvenou jako aktivní), pravý zobrazuje úroveň sekundární. ===== 2 Tipy pro lexikografickou práci ===== ==== 2.1 Nastavení/zobrazení některých funkcí a parametrů ==== V hlavním manuálu se o korpusových nastaveních a volbách zobrazení dočtete [[manualy:kontext:zobrazeni|zde]]. === Nastavení údajů v kategorii Zobrazení === Před zadáním dotazu do korpusu je užitečné si nahoře v kategorii **Zobrazení** nastavit určité typy údajů, které se nám ve vyhledaném výsledku zobrazí. Z nabídky si vybereme položku **Korpusová nastavení** a zobrazí se nám okno, kde lze zvolit jeden ze čtyř štítků.\\ V rámci první možnosti – **Poziční atributy** – zatrhneme položku **ort**, pokud máme jako základní rovinu zvolenou dialektologickou a současně chceme zobrazit vedle vyhledaného výrazu i jeho podobu z roviny ortografické, klikneme pak zcela dole na tlačítko **Použít volby zobrazení**. Červeně budeme mít zobrazen výraz přepsaný na rovině dial, hned vedlej něj černě odpovídající podobu výrazu na rovině ort. Budeme-li mít jako základní zobrazenou rovinu ortografickou, můžeme si naopak zaškrtnout **dial**. Když nebudeme chtít s druhou rovinou přepisu pracovat, tak si těchto položek všímat nemusíme.\\ V oddílu Poziční atributy si také můžeme nastavit zobrazení slovního druhu zaškrtnutím položky **pos [part of speech]**. Vysvětlení hodnot morfologických značek (tagů), např. N (substantivum), V (verbum) apod. viz [[seznamy:tagy|Morfologické značky (tagy)]].\\ V druhém oddílu – **Struktury** – je možné si zatrhnout položku ****, která v kontextu označuje hranici dokumentu. Položku **** vybereme v případě, že si přejeme zobrazit hranice střídání mluvčích. Dále si zde můžeme zvolit zobrazení různých informací o nahrávce nebo o mluvčím, které se pak zobrazují u vyznačené hranice, tedy uvnitř slovního kontextu.\\ Ve třetím oddílu – **Metainformace** – se nám nabízejí opět informace o nahrávce nebo mluvčích, ty se ale po zvolení zobrazí v každém konkordančním řádku zcela vlevo. Můžeme např. zaškrtnout položku **doc.id** a pak se vlevo u každého konkordačního řádku zobrazí modře označení sondy. Pokud si chceme zobrazit, ve které nářeční oblasti mluvčí nejdéle žil, zaškrtneme položku **sp.noblastnej**. Údaj se nám zobrazí opět v konkordančních řádcích a dál podle toho můžeme roztřídit výsledek dotazu (viz níže). Případně si můžeme k označení sondy přidat také téma nahrávky prostřednictvím položky **doc.tema**. Vysvětlení jednotlivých položek nalezneme ve dvou tabulkách věnovaných korpusu DIALEKT v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]]. === Zobrazení údajů o sondě a o mluvčích === Pokud si ve vyhledaných konkordancích chceme zobrazit podrobnější údaje o nahrávce a o mluvčím, klikneme na **modrý název sondy**, např. 042-M-STM-1966-SA, který je umístěn na každém konkordančním řádku zcela vlevo (pokud jsme si zaškrtli doc.id v oddílu Zobrazení, pododdílu Metainformace). Zobrazí se nám karta s popisem dokumentu (údaje o nahrávce jsou označeny značkou doc.) a s informacemi o mluvčím (jsou označeny značkou sp.). === Třídění výsledku dotazu === Výsledky vyhledaného dotazu si můžeme roztřídit podle různých kritérií (viz také [[manualy:kontext:konkordance#trideni|Třídění]]). Když vybereme v menu nahoře položku **Konkordance** a dále **Třídění**, můžeme si u položky **Atribut** vybrat z nabídky podle svých potřeb hodnotu, podle které se vyhledané výsledky setřídí. Může to být slovní tvar (**word**), základní tvar (**lemma**) nebo některá ze sociolingvistických informací vztahující se k nahrávce (označena **doc.**) nebo k mluvčímu (označena **sp.**), jako např. doc.noblast, tj. nářeční oblast, ve které byla nahrávka pořízena atp. Vysvětlení jednotlivých položek opět nalezneme v nejspodnějších dvou tabulkách v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]].\\ Velmi užitečnou možností je třídění vyhledaných výsledků podle frekvence. Díky frekvenci můžeme dostat přehled např. o zastoupení všech slovních tvarů hledaného lemmatu. V menu nahoře vybereme položku **Frekvence**, dále **Slovní tvary** a zobrazí se tabulka se slovními tvary a jejich frekvencí. Pokud ve sloupci **Filtr** (viz také [[manualy:kontext:filtr|Filtr]]) klikneme u vybraného slovního tvaru na **p** (tj. pozitivní filtr), zobrazí se všechny konkordance právě s tímto slovním tvarem. Pokud klikneme na **n** (tj. negativní filtr), zobrazí se nám všechny konkordance se všemi zbývajícími slovními tvary v tabulce kromě toho, pro který jsme zvolili negativní filtr. U položky Frekvence si můžeme zvolit i možnost **Vlastní…**, kde si můžeme zaškrtnout libovolnou hodnotu, podle níž se nám vypočítá frekvence. Zobrazí se nám formulář, ve kterém je v horním okénku automaticky zvolena možnost **Běžná**. V okénku **Atribut** si můžeme vybrat např. word [dial] nebo word [ort] (zobrazí se podle toho, s kterou úrovní přepisu pracujeme) nebo lemma a kliknout na **Vytvořit frekvenční seznam**. Pokud si v horním okénku zvolíme možnost **Podle typů textů**, máme na výběr z řady typů informací o nahrávce (**doc.**) nebo o mluvčím (**sp.**), na jejichž základě si opět můžeme nechat vytvořit frekvenční seznam. V hlavním manuálu se o frekvenční distibuci dočtete detailně [[manualy:kontext:frekvencni_distribuce|zde]]. === Přehrání zvukové stopy === Pokud si chceme přehrát zvukovou stopu odpovídající přepisu, klikneme v konkordančním řádku na **modrou hranatou závorku** (ať už levou nebo pravou) a přehraje se nám příslušná část nahrávky odpovídající přepisu uvnitř závorek. Nahrávku si nelze přehrát ani stáhnout celou, pouze po jednotlivých úsecích v závorkách. Mnohem přehledněji lze repliky dialogu sledovat po kliknutí na KWIC v náhledovém režimu Promluvy. === Nastavení klávesnice s nářečními znaky === Speciální znaky jako //ȇ, ȏ// ad. najdete po kliknutí na odkaz **Klávesnice**, který se na hlavní vyhledávací stránce nachází nad dotazovacím řádkem. U položky **Rozložení** zvolíte z nabídky hodnotu **Czech phon./dial.** Zobrazí se pak klávesnice, na jejíž znaky lze kliknout a ty se pak samy zapíšou do dotazovacího řádku. Další znaky se zobrazí po kliknutí na tlačítko **Caps**. Nenechte se zaskočit tím, že háček, který je např. pod //e//, se zobrazí vedle něj, a ne pod ním, to je pouze chyba zobrazení, ale jinak dotaz funguje. ==== 2.2 Vytváření dotazů pro vyhledávání -- příklady ==== V hlavním manuálu najdete přehled typů dotazů [[manualy:kontext:novy_dotaz#typy_dotazu|zde]], v manuálu pro mluvené korpusy se dočtete o dotazování [[kurz:hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_%E2%80%9Eslovo|zde]]. Jako korpus je v následujících příkladech zvolen **dialekt v1 - dial**, jako základní se tedy zobrazuje rovina dialektologická. === Všechna slova v korpusu začínající písmenem b === (analogicky ostatní písmena; pozor, u //c// se zobrazí i //ch//) * Výchozí atribut: **word [dial]** * Položka **Povolit regulární výrazy** zapnuta (tečka zastupuje jeden jakýkoli znak, hvězdička jeho libovolné opakování včetně nulového) * Dotaz: **b.* ** * Třídění podle abecedy: **Konkordance -- Třídění -- word [dial]** – setřídí všechny vyhledané doklady podle abecedy * Frekvence: **Frekvence -- Slovní tvary** – zobrazí seznam tvarů seřazený podle frekvence Dotaz lze omezit např. zadáním **ba.* ** apod., potom opět můžeme roztřídit buď podle abecedy, nebo vytvořit seznam podle frekvence tvarů. Pozn 1: Pokud se vám při zadání některého z dotazů objeví hlášení ve znění: „Byl detekován možný nesoulad mezi zvoleným a faktickým typem dotazu. Chcete pokračovat?“, nevšímejte si ho a potvrďte možnost Hledat. Pozn 2: Chcete-li z vyhledaného výsledku dotazu vybrat např. určitý slovní druh nebo tvar, v menu nahoře zvolíme Filtr, dále vybereme Pozitivní. Objeví se okénko pro zadání dotazu, tj. toho, co chceme z vyhledaného výsledu vybrat. Pokud si např. přejeme všechna substantiva, omezíme filtr pouze na vyhledaná slova, tj. zadáme v okénku pod možností Upřesnit parametry rozsah od 0 do 0. Přepneme na pokročilý dotaz a do vyhledávacího řádku zadáme [tag=%%"%%N.*%%"%%], kde N značí substantiva a .* znamená, že další pozice v tagu mohou být jakékoli, tj. jakýkoli tvar substantiva. (Pokud si chceme zobrazit u výsledku vyhledávání slovní druh, zvolíme v Zobrazení -- Korpusová nastavení v oddílu Poziční atributy pos [part of speech].) === Konkrétní slovní tvar === * Výchozí atribut: **word [dial]** * Dotaz: **toš** Najde všechny tyto slovní tvary. === Konkrétní slovní lemma === * Výchozí atribut: **lemma** * Dotaz: **tož** Najde všechny slovní tvary zařazené pod tímto lemmatem (//toš, tož, tuš, tuž, to//). Doporučujeme dále třídění podle frekvence slovního tvaru, nářeční oblasti apod. === Slovní varianty === * Typ dotazu: **pokročilý** * Dotaz: **''%%[word="zemák.*|zemňák.*|zemják.*"]%%''** * Dotaz: **''%%[word="(s|z)me"]%%''** Doporučujeme dále třídění podle frekvence apod. === Začátek slova === * Výchozí atribut: **word [dial]** * Položka **Povolit regulární výrazy** zapnuta * Dotaz: **bál.* ** Najde všechna slova, která začínají sledem znaků //bál//. === Část slova === * Výchozí atribut: **word [dial]** * Položka **Povolit regulární výrazy** zapnuta * Dotaz: **.*bál.* ** Najde všechna slova, která obsahují sled znaků //bál//. === Infinitiv končící na ť === * Typ dotazu: **pokročilý** * Dotaz: **''%%[word=".*ť" & tag="Vf.*"]%%''** Najde jen infinitivní tvary, ale ve značkování mohou být chyby. Doporučujeme dále třídění podle frekvence apod. === Konkrétní znak, např. všechna slova obsazující tvrdé ł === * Výchozí atribut: **word [dial]** * Položka **Povolit regulární výrazy** zapnuta * Dotaz: **.*ł.* ** === Všechna slova končící na tvrdé ł === * Výchozí atribut: **word [dial]** * Položka **Povolit regulární výrazy** zapnuta * Dotaz: **.*ł ** === Všechna slova s příponou -hle === * Výchozí atribut: **word [dial]** * Položka **Povolit regulární výrazy** zapnuta * Dotaz: **.*hle ** Vyhledá ale i slova končící na //-chle//, těch se můžeme zbavit pomocí negativního filtru. V menu nahoře zvolíme Filtr -- Negativní a do dotazového řádku napíšeme ''.*chle''. === Slovní spojení === Zkusme si nejprve v korpusu **dialekt v1 - ort** zadat sousloví //sousední vesnice//. S výchozím atributem **word[ort]** dostaneme jeden výsledek, zajímají-li nás však výskyty daného sousloví ve všech pádových formách a nehledě na číslo, musíme změnit atribut na **lemma**. Přibudou dva výskyty (//sousedních vesnicích// a //sousední vesnici//, tedy po jednom tvaru lokálu plurálu a singuláru). Avšak pozor! U sousloví je zapotřebí si uvědomit tvar lemmatu, tj. reprezentativní slovníkový tvar, každé složky zvlášť a ty pak zadat do hledacího řádku. Marně bychom jako lemma hledali např. sousloví //světová válka//, je nutno uvést lemmata obou slov, tzn. //světový válka// (jakkoliv podivně to vypadá). Eventuelně je možné využít regulární výrazy: dotaz //světov.* vále?k.*// obsáhne veškeré tvary v rámci daného paradigmatu (vč. tvaru //válek//). ===== 3 Tipy pro práci se subkorpusy ===== Pro vyhledávání si můžeme zúžit výběr nahrávek podle předem zvolených kritérií, a to buď pomocí funkce **Omezit hledání** nebo **vytvořením subkorpusu**. (V hlavním manuálu se o první možnosti dočtete v oddílu [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]], v manuálu o mluvených korpusech [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|zde]] a o subkorpusech se můžete informovat [[manualy:kontext:korpusy#prace_se_subkorpusy|zde]].) Funkci **Omezit hledání** nalezneme na hlavní vyhledávací stránce dole. Pokud na ni klikneme, zobrazí se nám řada skupin parametrů, podle kterých lze vybírat typy nahrávek nebo mluvčích, v rámci kterých se bude vyhledávat. Př: Pokud chceme vyhledávat určité jevy pouze ve skupině přepisů nahrávek mluvčích, kteří prožili většinu života v nářeční oblasti východomoravské, zadáme do okénka **Dotaz** to, co chceme vyhledat. Potom klikneme na **Omezit hledání** a pak zvolíme dole v oddílu sp.noblastnej položku východomoravská. Dále už jen klikneme na příkaz **Hledat** na stránce zcela dole vlevo. === Nastavení subkorpusu === Nahoře v nabídce klikneme na položku **Korpusy** a potom na **Vytvořit nový subkorpus**. Objeví se nám pestrá škála parametrů, které se vyskytují i u funkce Omezit hledání. Pro přihlášeného uživatele zůstane subkorpus trvale uložen. == Vytvoření subkorpusu z nahrávek publikovaných v Českém jazykovém atlasu == Do prázdného okénka **Název nového subkorpusu** napíšeme název subkorpusu, jak si ho sami zvolíme, např. v tomto případě CJA. U položky **doc.zdroj** zaškrtneme možnost Ústav pro jazyk český AV ČR – ČJA a už jen zcela dole vlevo klikneme na příkaz **Vytvořit subkorpus**. Objeví se seznam subkorpusů a tam si můžeme subkorpus kliknutím zvolit.\\ Náš vytvořený subkorpus najdeme tak, že v menu nahoře zvolíme **Korpusy** a dále **Mé subkorpusy** (subkorpus tam můžeme po zaškrtnutí okénka také smazat). Subkorpus lze vybrat z nabídky při zadávání dotazu – v menu nahoře zvolíme **Dotaz** a **Zadat nový dotaz** – a na stránce pro zadávání dotazu je vedle položky **Korpus: dialekt v1 – dial** také nabízející se položka **--celý korpus--**. Po kliknutí na ni se zobrazí i nabídka našich vytvořených subkorpusů, z nichž můžeme kterýkoli zvolit. Potom už jen standardním způsobem zadáváme dotaz, kde bude vyhledávání omezeno jen na zvolený subkorpus. == Vytvoření subkorpusu ze starší vrstvy nahrávek == Postupujeme stejným způsobem, jako tomu bylo v předchozím případě. Do okénka **Název nového subkorpusu** napíšeme např. stara_vrstva a v nabídce sociolingvistických charakteristik vybereme u položky **doc.vrstva** údaj stará a dole vlevo klikneme na příkaz **Vytvořit subkorpus**. == Vytvoření subkorpusu z nahrávek ze středomoravské nářeční oblasti == Do okénka **Název nového subkorpusu** napíšeme např. strm_oblast a v nabídce sociolingvistických charakteristik vybereme u položky **doc.noblast** údaj středomoravská a dole vlevo klikneme na příkaz **Vytvořit subkorpus**. Pokud si budeme chtít vytvářet subkorpusy z údajů o mluvčích, budeme vybírat z parametrů označených zkratkou **sp.** ===== Související odkazy ===== [[cnk:dialekt:pravidla|Transkripce v korpusu DIALEKT]] • [[kurz:uvod|Kurz práce s korpusem]] • [[kurz:zaciname|Jak začít pracovat s Českým národním korpusem]] • [[kurz:hledani_v_paralelnim_korpusu|Specifika vyhledávání v paralelním korpusu]] • [[cnk:citace|Jak citovat]] • [[cnk:uvod|Korpusy ČNK]]