AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


1 Práce s korpusem Dialekt

Následující text přináší tipy pro základní práci s korpusem Dialekt v rozhraní KonText. Podrobné vysvětlení jednotlivých typů dotazů a položek najdete také v Manuálu pro rozhraní KonText a v kurzu Práce s korpusovým rozhraním, zejména pak v jeho specializovaných částech Specifika vyhledávání v mluvených korpusech a Specifika vyhledávání v paralelním korpusu.

Korpus Dialekt je přepisován na dvou úrovních, dialektologické a ortografické. Korpusové rozhraní KonText umožňuje přístup k oběma z nich buď zvlášť, nebo současně. Z hlediska rozhraní Kontext pak jde o paralelní korpusy, které se zobrazují vedle sebe, jako primární si přitom lze zvolit kteroukoli z úrovní.

Volba korpusu

Po přihlášení do KonTextu nejprve vybereme korpus, který představuje požadovanou úroveň přepisu korpusu Dialekt. Výběr korpusu se provádí z nabídky, která se objeví po kliknutí aktuálně zvolený korpus. Po následné volbě Všechny korpusy vybereme štítek mluvený a v jeho nabídce zvolíme úroveň, která bude primární: buď dialektologickou (dialekt v1 - dial), nebo ortografickou (dialekt v1 - ort); volba korpusu je obecně popsána v této části manuálu.

K primární úrovni je možné (ale ne nutné) přidat také úroveň sekundární, která se bude zobrazovat paralelně. Tu zvolíme v části Zarovnané korpusy rozkliknutím volby Přidat korpus, kde se jako jediná možnost zobrazí úroveň, která není zvolena jako primární. Vybereme-li také ji, objeví se samostatný oddíl pro vyhledávání v sekundární úrovni přepisu, který lze pomocí modrého křížku vpravo opět zavřít. Je-li zvolena sekundární úroveň přepisu, zobrazují se výsledky vyhledávání ve dvou sloupcích: levý zobrazuje úroveň zvolenou jako primární (a zároveň modře podbarvenou jako aktivní), pravý zobrazuje úroveň sekundární.

2 Tipy pro lexikografickou práci

2.1 Nastavení/zobrazení některých funkcí a parametrů

V hlavním manuálu se o korpusových nastaveních a volbách zobrazení dočtete zde.

Nastavení údajů při vyhledávání dotazu v kategorii Zobrazení

Před zadáním dotazu do korpusu je užitečné si nahoře v kategorii Zobrazení nastavit určité typy údajů, které se nám ve vyhledaném výsledku zobrazí. Z nabídky si vybereme položku Korpusová nastavení a zobrazí se nám karta, kde jsou tři sloupce s údaji.
V prvním sloupci – Poziční atributy – zatrhneme položku ort, pokud máme jako základní rovinu zvolenou dialektologickou a současně chceme zobrazit vedle vyhledaného výrazu i jeho podobu z roviny ortografické, klikneme pak zcela dole na tlačítko Použít volby zobrazení. Červeně budeme mít zobrazen výraz přepsaný na rovině dial, hned vedlej něj černě odpovídající podobu výrazu na rovině ort. Budeme-li mít jako základní zobrazenou rovinu ortografickou, můžeme si naopak ve sloupci Poziční atributy zaškrtnout dial. Když nebudeme chtít s druhou rovinou přepisu pracovat, tak si těchto položek všímat nemusíme.
V prvním sloupci si také můžeme nastavit zobrazení slovního druhu zaškrtnutím položky pos [part of speech]. Vysvětlení hodnot morfologických značek (tagů), např. N (substantivum), V (verbum) apod. viz Morfologické značky (tagy).
V druhém sloupci – Struktury – je možné si zatrhnout položku <doc>, která v kontextu označuje hranici dokumentu. Položku <sp> vybereme v případě, že si přejeme zobrazit hranice střídání mluvčích. Ve sloupci struktury si také můžeme zvolit zobrazení různých informací o nahrávce nebo o mluvčím, které se pak zobrazují u vyznačené hranice, tedy uvnitř slovního kontextu.
Ve třetím sloupci – Metainformace – se nám nabízejí opět informace o nahrávce nebo mluvčích, ty se ale po zvolení zobrazí v každém konkordančním řádku zcela vlevo. Můžeme např. zaškrtnout položku doc.id a pak se vlevo u každého konkordačního řádku zobrazí modrý název sondy. Pokud si chceme zobrazit, ve které nářeční oblasti mluvčí nejdéle žil, zaškrtneme položku sp.noblastnej. Údaj se nám zobrazí opět v konkordančních řádcích a dál podle toho můžeme roztřídit výsledek dotazu (viz níže). Případně si můžeme k názvu sondy přidat také téma nahrávky prostřednictvím položky doc.tema. Vysvětlení jednotlivých položek nalezneme v nejspodnějších dvou tabulkách v oddílu Strukturní atributy mluvených korpusů.

Zobrazení údajů o sondě a o mluvčích

Pokud si ve vyhledaných konkordancích chceme zobrazit podrobnější údaje o nahrávce a o mluvčím, klikneme na modrý název sondy, např. 042-M-STM-1966-SA, který je umístěn na každém konkordančním řádku zcela vlevo (pokud jsme si zaškrtli doc.id v oddílu Zobrazení, sloupci Metainformace). Zobrazí se nám karta s popisem dokumentu (údaje o nahrávce jsou označeny značkou doc.) a s informacemi o mluvčím (jsou označeny značkou sp.).

Třídění výsledku dotazu

Výsledky vyhledaného dotazu si můžeme roztřídit podle různých kritérií (viz také Třídění). Když vybereme v menu nahoře položku Konkordance a dále Třídění, můžeme si u položky Atribut vybrat z nabídky podle svých potřeb hodnotu, podle které se vyhledané výsledky setřídí. Může to být slovní tvar (word), základní tvar (lemma) nebo některá ze sociolingvistických informací vztahující se k nahrávce (označena doc.) nebo k mluvčímu (označena sp.), jako např. doc.noblast, tj. nářeční oblast, ve které byla nahrávka pořízena atp. Vysvětlení jednotlivých položek opět nalezneme v nejspodnějších dvou tabulkách v oddílu Strukturní atributy mluvených korpusů.
Velmi užitečnou možností je třídění vyhledaných výsledků podle frekvence. Díky frekvenci můžeme dostat přehled např. o zastoupení všech slovních tvarů hledaného lemmatu. V menu nahoře vybereme položku Frekvence, dále Slovní tvary a zobrazí se tabulka se slovními tvary a jejich frekvencí. Pokud ve sloupci Filtr (viz také Filtr) klikneme u vybraného slovního tvaru na p (tj. pozitivní filtr), zobrazí se všechny konkordance právě s tímto slovním tvarem. Pokud klikneme na n (tj. negativní filtr), zobrazí se nám všechny konkordance se všemi zbývajícími slovními tvary v tabulce kromě toho, pro který jsme zvolili negativní filtr. U položky Frekvence si můžeme zvolit i možnost Vlastní…, kde si můžeme zaškrtnout libovolnou hodnotu, podle níž se nám vypočítá frekvence. Zobrazí se nám formulář, ve kterém je v horním okénku automaticky zvolena možnost Běžná. V okénku Atribut si můžeme vybrat např. word [dial] nebo word [ort] (zobrazí se podle toho, s kterou úrovní přepisu pracujeme) nebo lemma a kliknout na Vytvořit frekvenční seznam. Pokud si v horním okénku zvolíme možnost Podle typů textů, máme na výběr z řady typů informací o nahrávce (doc.) nebo o mluvčím (sp.), na jejichž základě si opět můžeme nechat vytvořit frekvenční seznam. V hlavním manuálu se o frekvenční distibuci dočtete detailně zde.

Přehrání zvukové stopy

Pokud si chceme přehrát zvukovou stopu odpovídající přepisu, klikneme v konkordančním řádku na modrou hranatou závorku (ať už levou nebo pravou) a přehraje se nám příslušná část nahrávky odpovídající přepisu uvnitř závorek. Nahrávku si nelze přehrát ani stáhnout celou, pouze po jednotlivých úsecích v závorkách.

Nastavení klávesnice s nářečními znaky

Speciální znaky jako ȇ, ȏ ad. najdete po kliknutí na odkaz Klávesnice, který se na hlavní vyhledávací stránce nachází nad okénkem Dotaz. U položky Rozložení zvolíte z nabídky hodnotu Czech phon./dial. Zobrazí se pak klávesnice, na jejíž znaky lze kliknout a ty se pak samy zapíšou do okénka Dotaz. Další znaky se zobrazí po kliknutí na tlačítko Caps. Nenechte se zaskočit tím, že háček, který je např. pod e, se zobrazí vedle něj, a ne pod ním, to je pouze chyba zobrazení, ale jinak dotaz funguje.

2.2 Vytváření dotazů pro vyhledávání – příklady

V hlavním manuálu najdete přehled typů dotazů zde, v manuálu pro mluvené korpusy se dočtete o dotazování zde. Jako korpus je v následujících příkladech zvolen dialekt v1 - dial, jako základní se tedy zobrazuje rovina dialektologická.

Všechna slova v korpusu začínající písmenem b

(analogicky ostatní písmena; pozor, u c se zobrazí i ch)

  • V položce Typ dotazu zvolíme: Slovní tvar
  • Dotaz: b.* (tečka zastupuje jeden jakýkoli znak, hvězdička jeho libovolné opakování včetně nulového)
  • Třídění podle abecedy: Konkordance, Třídění, word [dial] – setřídí všechny výskyty (tvary, slova apod.) podle abecedy
  • Frekvence: Frekvence, Slovní tvary – jednotlivé tvary seřadí podle frekvence

Dotaz lze omezit např. zadáním ba.* apod., potom opět můžeme roztřídit buď podle abecedy, nebo podle frekvence tvarů.

Pozn 1: Pokud se vám při zadání některého z dotazů objeví hlášení ve znění: „Byl detekován možný nesoulad mezi zvoleným a faktickým typem dotazu. Chcete pokračovat?“, nevšímejte si ho a vyberte možnost OK.

Pozn 2: Chcete-li z vyhledaného výsledku dotazu vybrat např. určitý slovní druh nebo tvar, v menu nahoře zvolíme Filtr, dále vybereme Pozitivní. Objeví se okénko pro zadání dotazu, tj. toho, co chceme z vyhledaného výsledu vybrat. Pokud si např. přejeme všechna substantiva, omezíme filtr pouze na vyhledaná slova, tj. zadáme v okénku rozsah od 0 do 0. Typ dotazu zvolíme CQL a do okénka na dotaz zadáme [tag=„N.*“], kde N značí substantiva a .* znamená, že další pozice v tagu mohou být jakékoli, tj. jakýkoli tvar substantiva. (Pokud si chceme zobrazit u výsledku vyhledávání slovní druh, zvolíme v Zobrazení, Korpusových nastaveních ve sloupci Poziční atributy pos [part of speech].)

Konkrétní slovní tvar

  • Typ dotazu: Slovní tvar
  • Dotaz: toš

Najde všechny tyto slovní tvary.

Konkrétní slovní lemma

  • Typ dotazu: Lemma
  • Dotaz: tož

Najde všechny slovní tvary zařazené pod tímto lemmatem (toš, tož, tuš, tuž). Doporučujeme dále třídění podle frekvence slovního tvaru, nářeční oblasti apod.

Slovní varianty

  • Typ dotazu: CQL
  • Dotaz: [word="zemák.*|zemňák.*|zemják.*"]
  • Dotaz: [word="(s|z)me"]

Doporučujeme dále třídění podle frekvence apod.

Začátek slova

  • Typ dotazu: Slovní tvar
  • Dotaz: bál.*

Najde všechna slova, která začínají sledem znaků bál.

Část slova

  • Typ dotazu: Část slova
  • Dotaz: bál

Najde všechna slova, která obsahují sled znaků bál (jde o stejný dotaz, jako kdybychom v typu dotazu Tvar slova zadali .*bál.*).

Infinitiv končící na ť

  • Typ dotazu: CQL
  • Dotaz: [word=".*ť" & tag="Vf.*"]

Najde jen infinitivní tvary, ale ve značkování mohou být chyby. Doporučujeme dále třídění podle frekvence apod.

Konkrétní znak, např. všechna slova obsazující tvrdé ł

  • Typ dotazu: Slovní tvar
  • Dotaz: .*ł.*

Všechna slova končící na tvrdé ł

  • Typ dotazu: Slovní tvar
  • Dotaz: .*ł

Všechna slova s příponou -hle

  • Typ dotazu: Slovní tvar
  • Dotaz: .*hle

Vyhledá ale i slova končící na -chle, těch se můžeme zbavit pomocí Negativního filtru. V menu nahoře zvolíme Filtr a dále Negativní a zvolíme Typ dotazu Slovní tvar a do Dotazu napíšeme .*chle a dáme vyhledat.

Slovní spojení

  • Typ dotazu: Základní
  • Dotaz: černý kuchyně
  • Dotaz: čočkový polévka

Pozn: Při zadávání dotazu musíme dávat pozor na lemmatizaci - kuchyně/kuchyň.

3 Tipy pro práci se subkorpusy

Pro vyhledávání si můžeme zúžit výběr nahrávek podle předem zvolených kritérií, a to buď pomocí funkce Omezit hledání nebo vytvořením subkorpusu. (V hlavním manuálu se o první možnosti dočtete v oddílu Omezit hledání, v manuálu o mluvených korpusech zde a o subkorpusech se můžete informovat zde.)

Funkci Omezit hledání nalezneme na hlavní vyhledávací stránce dole. Pokud na ni klikneme, zobrazí se nám řada skupin parametrů, podle kterých lze vybírat typy nahrávek nebo mluvčích, v rámci kterých se bude vyhledávat.

Př: Pokud chceme vyhledávat určité jevy pouze ve skupině přepisů nahrávek mluvčích, kteří prožili většinu života v nářeční oblasti východomoravské, zadáme do okénka Dotaz to, co chceme vyhledat. Potom klikneme na Omezit hledání a pak zvolíme dole v oddílu sp.noblastnej položku východomoravská. Dále už jen klikneme na příkaz Hledat na stránce zcela dole vlevo.

Nastavení subkorpusu

Pro přihlášeného uživatele zůstane subkorpus trvale uložen. Nahoře v nabídce klikneme na položku Korpusy a potom na Vytvořit nový subkorpus. Objeví se nám pestrá škála parametrů, které se vyskytují i u funkce Omezit hledání.

Vytvoření subkorpusu z nahrávek publikovaných v Českém jazykovém atlasu

Do prázdného okénka Název nového subkorpusu napíšeme název subkorpusu, jak si ho sami zvolíme, např. v tomto případě CJA. U položky doc.zdroj zaškrtneme možnost Ústav pro jazyk český AV ČR – ČJA a už jen zcela dole vlevo klikneme na příkaz Vytvořit subkorpus. Objeví se seznam subkorpusů a tam si můžeme subkorpus kliknutím zvolit.
Náš vytvořený subkorpus najdeme tak, že v menu nahoře zvolíme Korpusy a dále Mé subkorpusy (subkorpus tam můžeme po zaškrtnutí okénka také smazat). Subkorpus lze vybrat z nabídky při zadávání dotazu – v menu nahoře zvolíme Dotaz a Zadat nový dotaz – a na stránce pro zadávání dotazu je vedle položky Korpus: dialekt v1 – dial také nabízející se položka –celý korpus–. Po kliknutí na ni se zobrazí i nabídka našich vytvořených subkorpusů. Potom už jen standardním způsobem zadáváme dotaz, kde bude vyhledávání omezeno jen na zvolený subkorpus.

Vytvoření subkorpusu ze starší vrstvy nahrávek

Postupujeme stejným způsobem, jako tomu bylo v předchozím případě. Do okénka Název nového subkorpusu napíšeme např. stara_vrstva a v nabídce sociolingvistických charakteristik vybereme u položky doc.vrstva údaj stará a dole vlevo klikneme na příkaz Vytvořit subkorpus.

Vytvoření subkorpusu z nahrávek ze středomoravské nářeční oblasti

Do okénka Název nového subkorpusu napíšeme např. strm_oblast a v nabídce sociolingvistických charakteristik vybereme u položky doc.noblast údaj středomoravská a dole vlevo klikneme na příkaz Vytvořit subkorpus.

Pokud si budeme chtít vytvářet subkorpusy z údajů o mluvčích, budeme vybírat z parametrů označených zkratkou sp.

Související odkazy