Toto je starší verze dokumentu!
Obsah
1 Práce s korpusem Dialekt
Následující text přináší tipy pro základní práci s korpusem Dialekt v rozhraní KonText. Podrobné vysvětlení jednotlivých typů dotazů a položek najdete také v Manuálu pro rozhraní KonText a v Kurzu práce s korpusem, zejména pak v jeho specializovaných částech Specifika vyhledávání v mluvených korpusech a Specifika vyhledávání v paralelním korpusu.
Korpus Dialekt obsahuje přepisy na dvou úrovních, dialektologické a ortografické. Korpusové rozhraní KonText umožňuje přístup k oběma z nich buď zvlášť, nebo současně. Z hlediska rozhraní KonText pak jde o paralelní korpusy, které se zobrazují vedle sebe, jako primární si přitom lze zvolit kteroukoli z úrovní.
Volba korpusu
Po přihlášení do KonTextu nejprve vybereme korpus, který představuje požadovanou úroveň přepisu korpusu Dialekt. Výběr korpusu se provádí z nabídky, která se objeví po kliknutí na aktuálně zvolený korpus. Po následné volbě Všechny korpusy vybereme štítek mluvený a v jeho nabídce zvolíme úroveň, která bude primární: buď dialektologickou (dialekt v1 - dial), nebo ortografickou (dialekt v1 - ort); volba korpusu je obecně popsána v této části manuálu.
K primární úrovni je možné (ale ne nutné) přidat také úroveň sekundární, která se bude zobrazovat paralelně. Tu zvolíme v části Zarovnané korpusy rozkliknutím volby Přidat korpus, kde se jako jediná možnost zobrazí úroveň, která není zvolena jako primární. Vybereme-li také ji, objeví se samostatný oddíl pro vyhledávání v sekundární úrovni přepisu, který lze pomocí modrého křížku vpravo opět zavřít. Je-li zvolena sekundární úroveň přepisu, zobrazují se výsledky vyhledávání ve dvou sloupcích: levý zobrazuje úroveň zvolenou jako primární (a zároveň modře podbarvenou jako aktivní), pravý zobrazuje úroveň sekundární.
2 Tipy pro lexikografickou práci
2.1 Nastavení/zobrazení některých funkcí a parametrů
V hlavním manuálu se o korpusových nastaveních a volbách zobrazení dočtete zde.
Nastavení údajů v kategorii Zobrazení
Před zadáním dotazu do korpusu je užitečné si nahoře v kategorii Zobrazení nastavit určité typy údajů, které se nám ve vyhledaném výsledku zobrazí. Z nabídky si vybereme položku Korpusová nastavení a zobrazí se nám okno, kde lze zvolit jeden ze čtyř štítků.
V rámci první možnosti – Poziční atributy – zatrhneme položku ort, pokud máme jako základní rovinu zvolenou dialektologickou a současně chceme zobrazit vedle vyhledaného výrazu i jeho podobu z roviny ortografické, klikneme pak zcela dole na tlačítko Použít volby zobrazení. Červeně budeme mít zobrazen výraz přepsaný na rovině dial, hned vedlej něj černě odpovídající podobu výrazu na rovině ort. Budeme-li mít jako základní zobrazenou rovinu ortografickou, můžeme si naopak zaškrtnout dial. Když nebudeme chtít s druhou rovinou přepisu pracovat, tak si těchto položek všímat nemusíme.
V oddílu Poziční atributy si také můžeme nastavit zobrazení slovního druhu zaškrtnutím položky pos [part of speech]. Vysvětlení hodnot morfologických značek (tagů), např. N (substantivum), V (verbum) apod. viz Morfologické značky (tagy).
V druhém oddílu – Struktury – je možné si zatrhnout položku <doc>, která v kontextu označuje hranici dokumentu. Položku <sp> vybereme v případě, že si přejeme zobrazit hranice střídání mluvčích. Dále si zde můžeme zvolit zobrazení různých informací o nahrávce nebo o mluvčím, které se pak zobrazují u vyznačené hranice, tedy uvnitř slovního kontextu.
Ve třetím oddílu – Metainformace – se nám nabízejí opět informace o nahrávce nebo mluvčích, ty se ale po zvolení zobrazí v každém konkordančním řádku zcela vlevo. Můžeme např. zaškrtnout položku doc.id a pak se vlevo u každého konkordačního řádku zobrazí modře označení sondy. Pokud si chceme zobrazit, ve které nářeční oblasti mluvčí nejdéle žil, zaškrtneme položku sp.noblastnej. Údaj se nám zobrazí opět v konkordančních řádcích a dál podle toho můžeme roztřídit výsledek dotazu (viz níže). Případně si můžeme k označení sondy přidat také téma nahrávky prostřednictvím položky doc.tema. Vysvětlení jednotlivých položek nalezneme ve dvou tabulkách věnovaných korpusu DIALEKT v oddílu Strukturní atributy mluvených korpusů.
Zobrazení údajů o sondě a o mluvčích
Pokud si ve vyhledaných konkordancích chceme zobrazit podrobnější údaje o nahrávce a o mluvčím, klikneme na modrý název sondy, např. 042-M-STM-1966-SA, který je umístěn na každém konkordančním řádku zcela vlevo (pokud jsme si zaškrtli doc.id v oddílu Zobrazení, pododdílu Metainformace). Zobrazí se nám karta s popisem dokumentu (údaje o nahrávce jsou označeny značkou doc.) a s informacemi o mluvčím (jsou označeny značkou sp.).
Třídění výsledku dotazu
Výsledky vyhledaného dotazu si můžeme roztřídit podle různých kritérií (viz také Třídění).
Když vybereme v menu nahoře položku Konkordance a dále Třídění, můžeme si u položky Atribut vybrat z nabídky podle svých potřeb hodnotu, podle které se vyhledané výsledky setřídí. Může to být slovní tvar (word), základní tvar (lemma) nebo některá ze sociolingvistických informací vztahující se k nahrávce (označena doc.) nebo k mluvčímu (označena sp.), jako např. doc.noblast, tj. nářeční oblast, ve které byla nahrávka pořízena atp. Vysvětlení jednotlivých položek opět nalezneme v nejspodnějších dvou tabulkách v oddílu Strukturní atributy mluvených korpusů.
Velmi užitečnou možností je třídění vyhledaných výsledků podle frekvence. Díky frekvenci můžeme dostat přehled např. o zastoupení všech slovních tvarů hledaného lemmatu. V menu nahoře vybereme položku Frekvence, dále Slovní tvary a zobrazí se tabulka se slovními tvary a jejich frekvencí. Pokud ve sloupci Filtr (viz také Filtr) klikneme u vybraného slovního tvaru na p (tj. pozitivní filtr), zobrazí se všechny konkordance právě s tímto slovním tvarem. Pokud klikneme na n (tj. negativní filtr), zobrazí se nám všechny konkordance se všemi zbývajícími slovními tvary v tabulce kromě toho, pro který jsme zvolili negativní filtr. U položky Frekvence si můžeme zvolit i možnost Vlastní…, kde si můžeme zaškrtnout libovolnou hodnotu, podle níž se nám vypočítá frekvence. Zobrazí se nám formulář, ve kterém je v horním okénku automaticky zvolena možnost Běžná. V okénku Atribut si můžeme vybrat např. word [dial] nebo word [ort] (zobrazí se podle toho, s kterou úrovní přepisu pracujeme) nebo lemma a kliknout na Vytvořit frekvenční seznam. Pokud si v horním okénku zvolíme možnost Podle typů textů, máme na výběr z řady typů informací o nahrávce (doc.) nebo o mluvčím (sp.), na jejichž základě si opět můžeme nechat vytvořit frekvenční seznam. V hlavním manuálu se o frekvenční distibuci dočtete detailně zde.
Přehrání zvukové stopy
Pokud si chceme přehrát zvukovou stopu odpovídající přepisu, klikneme v konkordančním řádku na modrou hranatou závorku (ať už levou nebo pravou) a přehraje se nám příslušná část nahrávky odpovídající přepisu uvnitř závorek. Nahrávku si nelze přehrát ani stáhnout celou, pouze po jednotlivých úsecích v závorkách.
Nastavení klávesnice s nářečními znaky
Speciální znaky jako ȇ, ȏ ad. najdete po kliknutí na odkaz Klávesnice, který se na hlavní vyhledávací stránce nachází nad dotazovacím řádkem. U položky Rozložení zvolíte z nabídky hodnotu Czech phon./dial. Zobrazí se pak klávesnice, na jejíž znaky lze kliknout a ty se pak samy zapíšou do dotazovacího řádku. Další znaky se zobrazí po kliknutí na tlačítko Caps. Nenechte se zaskočit tím, že háček, který je např. pod e, se zobrazí vedle něj, a ne pod ním, to je pouze chyba zobrazení, ale jinak dotaz funguje.
2.2 Vytváření dotazů pro vyhledávání -- příklady
V hlavním manuálu najdete přehled typů dotazů zde, v manuálu pro mluvené korpusy se dočtete o dotazování zde. Jako korpus je v následujících příkladech zvolen dialekt v1 - dial, jako základní se tedy zobrazuje rovina dialektologická.
Všechna slova v korpusu začínající písmenem b
(analogicky ostatní písmena; pozor, u c se zobrazí i ch)
- Výchozí atribut: word [dial]
- Položka Povolit regulární výrazy zapnuta (tečka zastupuje jeden jakýkoli znak, hvězdička jeho libovolné opakování včetně nulového)
- Dotaz: b.*
- Třídění podle abecedy: Konkordance – Třídění – word [dial] – setřídí všechny vyhledané doklady podle abecedy
- Frekvence: Frekvence – Slovní tvary – zobrazí seznam tvarů seřazený podle frekvence
Dotaz lze omezit např. zadáním ba.* apod., potom opět můžeme roztřídit buď podle abecedy, nebo vytvořit seznam podle frekvence tvarů.
Pozn 1: Pokud se vám při zadání některého z dotazů objeví hlášení ve znění: „Byl detekován možný nesoulad mezi zvoleným a faktickým typem dotazu. Chcete pokračovat?“, nevšímejte si ho a potvrďte možnost Hledat.
Pozn 2: Chcete-li z vyhledaného výsledku dotazu vybrat např. určitý slovní druh nebo tvar, v menu nahoře zvolíme Filtr, dále vybereme Pozitivní. Objeví se okénko pro zadání dotazu, tj. toho, co chceme z vyhledaného výsledu vybrat. Pokud si např. přejeme všechna substantiva, omezíme filtr pouze na vyhledaná slova, tj. zadáme v okénku pod možností Upřesnit parametry rozsah od 0 do 0. Přepneme na pokročilý dotaz a do vyhledávacího řádku zadáme [tag="N.*"], kde N značí substantiva a .* znamená, že další pozice v tagu mohou být jakékoli, tj. jakýkoli tvar substantiva. (Pokud si chceme zobrazit u výsledku vyhledávání slovní druh, zvolíme v Zobrazení – Korpusová nastavení ve sloupci Poziční atributy pos [part of speech].)
Konkrétní slovní tvar
- Výchozí atribut: word [dial]
- Dotaz: toš
Najde všechny tyto slovní tvary.
Konkrétní slovní lemma
- Výchozí atribut: lemma
- Dotaz: tož
Najde všechny slovní tvary zařazené pod tímto lemmatem (toš, tož, tuš, tuž, to). Doporučujeme dále třídění podle frekvence slovního tvaru, nářeční oblasti apod.
Slovní varianty
- Typ dotazu: pokročilý
- Dotaz:
[word="zemák.*|zemňák.*|zemják.*"]
- Dotaz:
[word="(s|z)me"]
Doporučujeme dále třídění podle frekvence apod.
Začátek slova
- Výchozí atribut: word [dial]
- Dotaz (se zapnutím regulárních výrazů): bál.*
Najde všechna slova, která začínají sledem znaků bál.
Část slova
- Výchozí atribut: word [dial]
- Dotaz (se zapnutím regulárních výrazů): .*bál.*
Najde všechna slova, která obsahují sled znaků bál.
Infinitiv končící na ť
- Typ dotazu: pokročilý
- Dotaz:
[word=".*ť" & tag="Vf.*"]
Najde jen infinitivní tvary, ale ve značkování mohou být chyby. Doporučujeme dále třídění podle frekvence apod.
Konkrétní znak, např. všechna slova obsazující tvrdé ł
- Výchozí atribut: word [dial]
- Dotaz (se zapnutím regulárních výrazů): .*ł.*
Všechna slova končící na tvrdé ł
- Výchozí atribut: word [dial]
- Dotaz (se zapnutím regulárních výrazů): .*ł
Všechna slova s příponou -hle
- Výchozí atribut: word [dial]
- Dotaz (se zapnutím regulárních výrazů): .*hle
Vyhledá ale i slova končící na -chle, těch se můžeme zbavit pomocí negativního filtru. V menu nahoře zvolíme Filtr – Negativní a do dotazového řádku napíšeme .*chle
.
Slovní spojení
Zkusme si nejprve v korpusu Dialekt_ort zadat sousloví sousední vesnice. S výchozím atributem word[ort] dostaneme jeden výsledek, zajímají-li nás však výskyty daného sousloví ve všech pádových formách a nehledě na číslo, musíme změnit atribut na lemma. Přibudou dva výskyty (sousedních vesnicích a sousední vesnici, tedy po jednom tvaru lokálu plurálu a singuláru). Avšak pozor! U sousloví je zapotřebí si uvědomit tvar lemmatu, tj. reprezentativní slovníkový tvar, všech složek, a ty pak zadat do hledacího řádku. Marně bychom jako lemma hledali např. sousloví světová válka, je nutno uvést lemmata obou slov, tzn. světový válka (jakkoliv podivně to vypadá), případně využít regulární výrazy: dotaz světov.* vále?k.* obsáhne veškeré tvary v rámci daného paradigmatu (vč. tvaru válek).
3 Tipy pro práci se subkorpusy
Pro vyhledávání si můžeme zúžit výběr nahrávek podle předem zvolených kritérií, a to buď pomocí funkce Omezit hledání nebo vytvořením subkorpusu. (V hlavním manuálu se o první možnosti dočtete v oddílu Omezit hledání, v manuálu o mluvených korpusech zde a o subkorpusech se můžete informovat zde.)
Funkci Omezit hledání nalezneme na hlavní vyhledávací stránce dole. Pokud na ni klikneme, zobrazí se nám řada skupin parametrů, podle kterých lze vybírat typy nahrávek nebo mluvčích, v rámci kterých se bude vyhledávat.
Př: Pokud chceme vyhledávat určité jevy pouze ve skupině přepisů nahrávek mluvčích, kteří prožili většinu života v nářeční oblasti východomoravské, zadáme do okénka Dotaz to, co chceme vyhledat. Potom klikneme na Omezit hledání a pak zvolíme dole v oddílu sp.noblastnej položku východomoravská. Dále už jen klikneme na příkaz Hledat na stránce zcela dole vlevo.
Nastavení subkorpusu
Pro přihlášeného uživatele zůstane subkorpus trvale uložen. Nahoře v nabídce klikneme na položku Korpusy a potom na Vytvořit nový subkorpus. Objeví se nám pestrá škála parametrů, které se vyskytují i u funkce Omezit hledání.
Vytvoření subkorpusu z nahrávek publikovaných v Českém jazykovém atlasu
Do prázdného okénka Název nového subkorpusu napíšeme název subkorpusu, jak si ho sami zvolíme, např. v tomto případě CJA. U položky doc.zdroj zaškrtneme možnost Ústav pro jazyk český AV ČR – ČJA a už jen zcela dole vlevo klikneme na příkaz Vytvořit subkorpus. Objeví se seznam subkorpusů a tam si můžeme subkorpus kliknutím zvolit.
Náš vytvořený subkorpus najdeme tak, že v menu nahoře zvolíme Korpusy a dále Mé subkorpusy (subkorpus tam můžeme po zaškrtnutí okénka také smazat). Subkorpus lze vybrat z nabídky při zadávání dotazu – v menu nahoře zvolíme Dotaz a Zadat nový dotaz – a na stránce pro zadávání dotazu je vedle položky Korpus: dialekt v1 – dial také nabízející se položka –celý korpus–. Po kliknutí na ni se zobrazí i nabídka našich vytvořených subkorpusů. Potom už jen standardním způsobem zadáváme dotaz, kde bude vyhledávání omezeno jen na zvolený subkorpus.
Vytvoření subkorpusu ze starší vrstvy nahrávek
Postupujeme stejným způsobem, jako tomu bylo v předchozím případě. Do okénka Název nového subkorpusu napíšeme např. stara_vrstva a v nabídce sociolingvistických charakteristik vybereme u položky doc.vrstva údaj stará a dole vlevo klikneme na příkaz Vytvořit subkorpus.
Vytvoření subkorpusu z nahrávek ze středomoravské nářeční oblasti
Do okénka Název nového subkorpusu napíšeme např. strm_oblast a v nabídce sociolingvistických charakteristik vybereme u položky doc.noblast údaj středomoravská a dole vlevo klikneme na příkaz Vytvořit subkorpus.
Pokud si budeme chtít vytvářet subkorpusy z údajů o mluvčích, budeme vybírat z parametrů označených zkratkou sp.