Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:dialekt:prace [2021/01/07 12:52] – [2.2 Vytváření dotazů pro vyhledávání -- příklady] michalskrabal
+++ cnk:dialekt:prace [2021/01/14 09:30] – [3 Tipy pro práci se subkorpusy] martinawaclawicova
@@ Řádek 1: / Řádek 1: @@
 ====== 1 Práce s korpusem Dialekt ======
-Následující text přináší tipy pro základní práci s korpusem [[cnk:dialekt|Dialekt]] v rozhraní [[manualy:kontext:index|KonText]]. Podrobné vysvětlení jednotlivých typů dotazů a položek najdete také v [[manualy:kontext:index|Manuálu pro rozhraní KonText]] a v kurzu [[kurz:uvod|Práce s korpusovým rozhraním]], zejména pak v jeho specializovaných částech [[kurz:hledani_v_mluvenych_korpusech|Specifika vyhledávání v mluvených korpusech]] a [[kurz:hledani_v_paralelnim_korpusu|Specifika vyhledávání v paralelním korpusu]].
+Následující text přináší tipy pro základní práci s korpusem [[cnk:dialekt|Dialekt]] v rozhraní [[manualy:kontext:index|KonText]]. Podrobné vysvětlení jednotlivých typů dotazů a položek najdete také v [[manualy:kontext:index|Manuálu pro rozhraní KonText]] a v [[kurz:uvod|Kurzu práce s korpusem]], zejména pak v jeho specializovaných částech [[kurz:hledani_v_mluvenych_korpusech|Specifika vyhledávání v mluvených korpusech]] a [[kurz:hledani_v_paralelnim_korpusu|Specifika vyhledávání v paralelním korpusu]].
-Korpus Dialekt je přepisován na dvou úrovních, dialektologické a ortografické. Korpusové rozhraní KonText umožňuje přístup k oběma z nich buď zvlášť, nebo současně. Z hlediska rozhraní Kontext pak jde o [[pojmy:paralelni|paralelní]] korpusy, které se zobrazují vedle sebe, jako primární si přitom lze zvolit kteroukoli z úrovní.
+Korpus Dialekt obsahuje přepisy na dvou úrovních, dialektologické a ortografické. Korpusové rozhraní KonText umožňuje přístup k oběma z nich buď zvlášť, nebo současně. Z hlediska rozhraní KonText pak jde o [[pojmy:paralelni|paralelní]] korpusy, které se zobrazují vedle sebe, jako primární si přitom lze zvolit kteroukoli z úrovní.
 === Volba korpusu ===
-Po přihlášení do KonTextu nejprve vybereme korpus, který představuje požadovanou úroveň přepisu korpusu Dialekt. Výběr korpusu se provádí z nabídky, která se objeví po kliknutí aktuálně zvolený korpus. Po následné volbě Všechny korpusy vybereme štítek mluvený a v jeho nabídce zvolíme úroveň, která bude primární: buď dialektologickou (**dialekt v1 - dial**), nebo ortografickou (**dialekt v1 - ort**); volba korpusu je obecně popsána v [[manualy:kontext:novy_dotaz#volba_korpusu|této části manuálu]].
+Po přihlášení do KonTextu nejprve vybereme korpus, který představuje požadovanou úroveň přepisu korpusu Dialekt. Výběr korpusu se provádí z nabídky, která se objeví po kliknutí na aktuálně zvolený korpus. Po následné volbě **Všechny korpusy** vybereme štítek **mluvený** a v jeho nabídce zvolíme úroveň, která bude primární: buď dialektologickou (**dialekt v1 - dial**), nebo ortografickou (**dialekt v1 - ort**); volba korpusu je obecně popsána v [[manualy:kontext:novy_dotaz#volba_korpusu|této části manuálu]].
 K primární úrovni je možné (ale ne nutné) přidat také úroveň sekundární, která se bude zobrazovat paralelně. Tu zvolíme v části **Zarovnané korpusy** rozkliknutím volby **Přidat korpus**, kde se jako jediná možnost zobrazí úroveň, která není zvolena jako primární. Vybereme-li také ji, objeví se samostatný oddíl pro vyhledávání v sekundární úrovni přepisu, který lze pomocí modrého křížku vpravo opět zavřít. Je-li zvolena sekundární úroveň přepisu, zobrazují se výsledky vyhledávání ve dvou sloupcích: levý zobrazuje úroveň zvolenou jako primární (a zároveň modře podbarvenou jako aktivní), pravý zobrazuje úroveň sekundární.
@@ Řádek 14: / Řádek 14: @@
 ==== 2.1 Nastavení/zobrazení některých funkcí a parametrů ====
-V hlavním manuálu se o korpusových nastaveních a volbách zobrazení dočtete [[manualy:kontext:moznosti_zobrazeni|zde]].
+V hlavním manuálu se o korpusových nastaveních a volbách zobrazení dočtete [[manualy:kontext:zobrazeni|zde]].
-=== Nastavení údajů při vyhledávání dotazu v kategorii Zobrazení ===
+=== Nastavení údajů v kategorii Zobrazení ===
-Před zadáním dotazu do korpusu je užitečné si nahoře v kategorii **Zobrazení** nastavit určité typy údajů, které se nám ve vyhledaném výsledku zobrazí. Z nabídky si vybereme položku **Korpusová nastavení** a zobrazí se nám karta, kde jsou tři sloupce s údaji.\\
+Před zadáním dotazu do korpusu je užitečné si nahoře v kategorii **Zobrazení** nastavit určité typy údajů, které se nám ve vyhledaném výsledku zobrazí. Z nabídky si vybereme položku **Korpusová nastavení** a zobrazí se nám okno, kde lze zvolit jeden ze čtyř štítků.\\
-V prvním sloupci – **Poziční atributy** – zatrhneme položku **ort**, pokud máme jako základní rovinu zvolenou dialektologickou a současně chceme zobrazit vedle vyhledaného výrazu i jeho podobu z roviny ortografické, klikneme pak zcela dole na tlačítko **Použít volby zobrazení**. Červeně budeme mít zobrazen výraz přepsaný na rovině dial, hned vedlej něj černě odpovídající podobu výrazu na rovině ort. Budeme-li mít jako základní zobrazenou rovinu ortografickou, můžeme si naopak ve sloupci Poziční atributy zaškrtnout **dial**. Když nebudeme chtít s druhou rovinou přepisu pracovat, tak si těchto položek všímat nemusíme.\\
+V rámci první možnosti – **Poziční atributy** – zatrhneme položku **ort**, pokud máme jako základní rovinu zvolenou dialektologickou a současně chceme zobrazit vedle vyhledaného výrazu i jeho podobu z roviny ortografické, klikneme pak zcela dole na tlačítko **Použít volby zobrazení**. Červeně budeme mít zobrazen výraz přepsaný na rovině dial, hned vedlej něj černě odpovídající podobu výrazu na rovině ort. Budeme-li mít jako základní zobrazenou rovinu ortografickou, můžeme si naopak zaškrtnout **dial**. Když nebudeme chtít s druhou rovinou přepisu pracovat, tak si těchto položek všímat nemusíme.\\
-V prvním sloupci si také můžeme nastavit zobrazení slovního druhu zaškrtnutím položky **pos [part of speech]**. Vysvětlení hodnot morfologických značek (tagů), např. N (substantivum), V (verbum) apod. viz [[seznamy:tagy|Morfologické značky (tagy)]].\\
+V oddílu Poziční atributy si také můžeme nastavit zobrazení slovního druhu zaškrtnutím položky **pos [part of speech]**. Vysvětlení hodnot morfologických značek (tagů), např. N (substantivum), V (verbum) apod. viz [[seznamy:tagy|Morfologické značky (tagy)]].\\
-V druhém sloupci – **Struktury** – je možné si zatrhnout položku **<doc>**, která v kontextu označuje hranici dokumentu. Položku **<sp>** vybereme v případě, že si přejeme zobrazit hranice střídání mluvčích. Ve sloupci struktury si také můžeme zvolit zobrazení různých informací o nahrávce nebo o mluvčím, které se pak zobrazují u vyznačené hranice, tedy uvnitř slovního kontextu.\\
+V druhém oddílu – **Struktury** – je možné si zatrhnout položku **<doc>**, která v kontextu označuje hranici dokumentu. Položku **<sp>** vybereme v případě, že si přejeme zobrazit hranice střídání mluvčích. Dále si zde můžeme zvolit zobrazení různých informací o nahrávce nebo o mluvčím, které se pak zobrazují u vyznačené hranice, tedy uvnitř slovního kontextu.\\
-Ve třetím sloupci – **Metainformace** – se nám nabízejí opět informace o nahrávce nebo mluvčích, ty se ale po zvolení zobrazí v každém konkordančním řádku zcela vlevo. Můžeme např. zaškrtnout položku **doc.id** a pak se vlevo u každého konkordačního řádku zobrazí modrý název sondy. Pokud si chceme zobrazit, ve které nářeční oblasti mluvčí nejdéle žil, zaškrtneme položku **sp.noblastnej**. Údaj se nám zobrazí opět v konkordančních řádcích a dál podle toho můžeme roztřídit výsledek dotazu (viz níže). Případně si můžeme k názvu sondy přidat také téma nahrávky prostřednictvím položky **doc.tema**. Vysvětlení jednotlivých položek nalezneme v nejspodnějších dvou tabulkách v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]].
+Ve třetím oddílu – **Metainformace** – se nám nabízejí opět informace o nahrávce nebo mluvčích, ty se ale po zvolení zobrazí v každém konkordančním řádku zcela vlevo. Můžeme např. zaškrtnout položku **doc.id** a pak se vlevo u každého konkordačního řádku zobrazí modře označení sondy. Pokud si chceme zobrazit, ve které nářeční oblasti mluvčí nejdéle žil, zaškrtneme položku **sp.noblastnej**. Údaj se nám zobrazí opět v konkordančních řádcích a dál podle toho můžeme roztřídit výsledek dotazu (viz níže). Případně si můžeme k označení sondy přidat také téma nahrávky prostřednictvím položky **doc.tema**. Vysvětlení jednotlivých položek nalezneme ve dvou tabulkách věnovaných korpusu DIALEKT v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]].
 === Zobrazení údajů o sondě a o mluvčích ===
-Pokud si ve vyhledaných konkordancích chceme zobrazit podrobnější údaje o nahrávce a o mluvčím, klikneme na **modrý název sondy**, např. 042-M-STM-1966-SA, který je umístěn na každém konkordančním řádku zcela vlevo (pokud jsme si zaškrtli doc.id v oddílu Zobrazení, sloupci Metainformace). Zobrazí se nám karta s popisem dokumentu (údaje o nahrávce jsou označeny značkou doc.) a s informacemi o mluvčím (jsou označeny značkou sp.).
+Pokud si ve vyhledaných konkordancích chceme zobrazit podrobnější údaje o nahrávce a o mluvčím, klikneme na **modrý název sondy**, např. 042-M-STM-1966-SA, který je umístěn na každém konkordančním řádku zcela vlevo (pokud jsme si zaškrtli doc.id v oddílu Zobrazení, pododdílu Metainformace). Zobrazí se nám karta s popisem dokumentu (údaje o nahrávce jsou označeny značkou doc.) a s informacemi o mluvčím (jsou označeny značkou sp.).
 === Třídění výsledku dotazu ===
@@ Řádek 48: / Řádek 48: @@
   * Výchozí atribut: **word [dial]**
-  * Dotaz: **b.* ** (se zapnutím regulárních výrazů, tečka zastupuje jeden jakýkoli znak, hvězdička jeho libovolné opakování včetně nulového)
+  * Položka **Povolit regulární výrazy** zapnuta (tečka zastupuje jeden jakýkoli znak, hvězdička jeho libovolné opakování včetně nulového)
-  * Třídění podle abecedy: **Konkordance -- Třídění -- word [dial]** – setřídí všechny výskyty (tvary, slova apod.) podle abecedy
+  * Dotaz: **b.* **
-  * Frekvence: **Frekvence -- Slovní tvary** – jednotlivé tvary seřadí podle frekvence
+  * Třídění podle abecedy: **Konkordance -- Třídění -- word [dial]** – setřídí všechny vyhledané doklady podle abecedy
-Dotaz lze omezit např. zadáním **ba.* ** apod., potom opět můžeme roztřídit buď podle abecedy, nebo podle frekvence tvarů.
+  * Frekvence: **Frekvence -- Slovní tvary** – zobrazí seznam tvarů seřazený podle frekvence
+Dotaz lze omezit např. zadáním **ba.* ** apod., potom opět můžeme roztřídit buď podle abecedy, nebo vytvořit seznam podle frekvence tvarů.
 Pozn 1: Pokud se vám při zadání některého z dotazů objeví hlášení ve znění: „Byl detekován možný nesoulad mezi zvoleným a faktickým typem dotazu. Chcete pokračovat?“, nevšímejte si ho a potvrďte možnost Hledat.
-Pozn 2: Chcete-li z vyhledaného výsledku dotazu vybrat např. určitý slovní druh nebo tvar, v menu nahoře zvolíme Filtr, dále vybereme Pozitivní. Objeví se okénko pro zadání dotazu, tj. toho, co chceme z vyhledaného výsledu vybrat. Pokud si např. přejeme všechna substantiva, omezíme filtr pouze na vyhledaná slova, tj. zadáme v okénku rozsah od 0 do 0. Přepneme na pokročilý dotaz a do vyhledávacího řádku zadáme [tag=%%"%%N.*%%"%%], kde N značí substantiva a .* znamená, že další pozice v tagu mohou být jakékoli, tj. jakýkoli tvar substantiva. (Pokud si chceme zobrazit u výsledku vyhledávání slovní druh, zvolíme v Zobrazení -- Korpusová nastavení ve sloupci Poziční atributy pos [part of speech].)
+Pozn 2: Chcete-li z vyhledaného výsledku dotazu vybrat např. určitý slovní druh nebo tvar, v menu nahoře zvolíme Filtr, dále vybereme Pozitivní. Objeví se okénko pro zadání dotazu, tj. toho, co chceme z vyhledaného výsledu vybrat. Pokud si např. přejeme všechna substantiva, omezíme filtr pouze na vyhledaná slova, tj. zadáme v okénku pod možností Upřesnit parametry rozsah od 0 do 0. Přepneme na pokročilý dotaz a do vyhledávacího řádku zadáme [tag=%%"%%N.*%%"%%], kde N značí substantiva a .* znamená, že další pozice v tagu mohou být jakékoli, tj. jakýkoli tvar substantiva. (Pokud si chceme zobrazit u výsledku vyhledávání slovní druh, zvolíme v Zobrazení -- Korpusová nastavení v oddílu Poziční atributy pos [part of speech].)
 === Konkrétní slovní tvar ===
@@ Řádek 63: / Řádek 64: @@
 === Konkrétní slovní lemma ===
-  * Výchozí atribut: **Lemma**
+  * Výchozí atribut: **lemma**
   * Dotaz: **tož**
 Najde všechny slovní tvary zařazené pod tímto lemmatem (//toš, tož, tuš, tuž, to//).
@@ Řádek 76: / Řádek 77: @@
 === Začátek slova ===
   * Výchozí atribut: **word [dial]**
-  * Dotaz (se zapnutím regulárních výrazů): **bál.* **
+  * Položka **Povolit regulární výrazy** zapnuta
+  * Dotaz: **bál.* **
 Najde všechna slova, která začínají sledem znaků //bál//.
 === Část slova ===
   * Výchozí atribut: **word [dial]**
-  * Dotaz (se zapnutím regulárních výrazů): **.*bál.* **
+  * Položka **Povolit regulární výrazy** zapnuta
+  * Dotaz: **.*bál.* **
 Najde všechna slova, která obsahují sled znaků //bál//.
@@ Řádek 92: / Řádek 95: @@
 === Konkrétní znak, např. všechna slova obsazující tvrdé ł ===
   * Výchozí atribut: **word [dial]**
-  * Dotaz (se zapnutím regulárních výrazů): **.*ł.* **
+  * Položka **Povolit regulární výrazy** zapnuta
+  * Dotaz: **.*ł.* **
 === Všechna slova končící na tvrdé ł ===
   * Výchozí atribut: **word [dial]**
-  * Dotaz (se zapnutím regulárních výrazů): **.*ł **
+  * Položka **Povolit regulární výrazy** zapnuta
+  * Dotaz: **.*ł **
 === Všechna slova s příponou -hle ===
   * Výchozí atribut: **word [dial]**
-  * Dotaz (se zapnutím regulárních výrazů): **.*hle **
+  * Položka **Povolit regulární výrazy** zapnuta
+  * Dotaz: **.*hle **
 Vyhledá ale i slova končící na //-chle//, těch se můžeme zbavit pomocí negativního filtru. V menu nahoře zvolíme Filtr -- Negativní a do dotazového řádku napíšeme ''.*chle''.
 === Slovní spojení ===
-  * Výchozí atribut: **lemma**
-  * Dotaz: **černý kuchyně **
-  * Dotaz: **čočkový polévka ** FIXME
-Pozn: Při zadávání dotazu musíme dávat pozor na lemmatizaci - kuchyně/kuchyň.
+Zkusme si nejprve v korpusu **dialekt v1 - ort** zadat sousloví //sousední vesnice//. S výchozím atributem **word[ort]** dostaneme jeden výsledek, zajímají-li nás však výskyty daného sousloví ve všech pádových formách a nehledě na číslo, musíme změnit atribut na **lemma**. Přibudou dva výskyty (//sousedních vesnicích// a //sousední vesnici//, tedy po jednom tvaru lokálu plurálu a singuláru). Avšak pozor! U sousloví je zapotřebí si uvědomit tvar lemmatu, tj. reprezentativní slovníkový tvar, každé složky zvlášť a ty pak zadat do hledacího řádku. Marně bychom jako lemma hledali např. sousloví //světová válka//, je nutno uvést lemmata obou slov, tzn. //světový válka// (jakkoliv podivně to vypadá). Eventuelně je možné využít regulární výrazy: dotaz //světov.* vále?k.*// obsáhne veškeré tvary v rámci daného paradigmatu (vč. tvaru //válek//).
 ===== 3 Tipy pro práci se subkorpusy =====
-Pro vyhledávání si můžeme zúžit výběr nahrávek podle předem zvolených kritérií, a to buď pomocí funkce **Omezit hledání** nebo **vytvořením subkorpusu**. (V hlavním manuálu se o první možnosti dočtete v oddílu [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]], v manuálu o mluvených korpusech [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|zde]] a o subkorpusech se můžete informovat [[manualy:kontext:subkorpus|zde]].)
+Pro vyhledávání si můžeme zúžit výběr nahrávek podle předem zvolených kritérií, a to buď pomocí funkce **Omezit hledání** nebo **vytvořením subkorpusu**. (V hlavním manuálu se o první možnosti dočtete v oddílu [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]], v manuálu o mluvených korpusech [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|zde]] a o subkorpusech se můžete informovat [[manualy:kontext:korpusy#prace_se_subkorpusy|zde]].)
 Funkci **Omezit hledání** nalezneme na hlavní vyhledávací stránce dole. Pokud na ni klikneme, zobrazí se nám řada skupin parametrů, podle kterých lze vybírat typy nahrávek nebo mluvčích, v rámci kterých se bude vyhledávat.

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence