Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:dialekt:prace [2021/01/07 12:52] – [2.2 Vytváření dotazů pro vyhledávání -- příklady] michalskrabal | cnk:dialekt:prace [2021/01/14 09:30] – [3 Tipy pro práci se subkorpusy] martinawaclawicova |
---|
====== 1 Práce s korpusem Dialekt ====== | ====== 1 Práce s korpusem Dialekt ====== |
| |
Následující text přináší tipy pro základní práci s korpusem [[cnk:dialekt|Dialekt]] v rozhraní [[manualy:kontext:index|KonText]]. Podrobné vysvětlení jednotlivých typů dotazů a položek najdete také v [[manualy:kontext:index|Manuálu pro rozhraní KonText]] a v kurzu [[kurz:uvod|Práce s korpusovým rozhraním]], zejména pak v jeho specializovaných částech [[kurz:hledani_v_mluvenych_korpusech|Specifika vyhledávání v mluvených korpusech]] a [[kurz:hledani_v_paralelnim_korpusu|Specifika vyhledávání v paralelním korpusu]]. | Následující text přináší tipy pro základní práci s korpusem [[cnk:dialekt|Dialekt]] v rozhraní [[manualy:kontext:index|KonText]]. Podrobné vysvětlení jednotlivých typů dotazů a položek najdete také v [[manualy:kontext:index|Manuálu pro rozhraní KonText]] a v [[kurz:uvod|Kurzu práce s korpusem]], zejména pak v jeho specializovaných částech [[kurz:hledani_v_mluvenych_korpusech|Specifika vyhledávání v mluvených korpusech]] a [[kurz:hledani_v_paralelnim_korpusu|Specifika vyhledávání v paralelním korpusu]]. |
| |
Korpus Dialekt je přepisován na dvou úrovních, dialektologické a ortografické. Korpusové rozhraní KonText umožňuje přístup k oběma z nich buď zvlášť, nebo současně. Z hlediska rozhraní Kontext pak jde o [[pojmy:paralelni|paralelní]] korpusy, které se zobrazují vedle sebe, jako primární si přitom lze zvolit kteroukoli z úrovní. | Korpus Dialekt obsahuje přepisy na dvou úrovních, dialektologické a ortografické. Korpusové rozhraní KonText umožňuje přístup k oběma z nich buď zvlášť, nebo současně. Z hlediska rozhraní KonText pak jde o [[pojmy:paralelni|paralelní]] korpusy, které se zobrazují vedle sebe, jako primární si přitom lze zvolit kteroukoli z úrovní. |
| |
=== Volba korpusu === | === Volba korpusu === |
Po přihlášení do KonTextu nejprve vybereme korpus, který představuje požadovanou úroveň přepisu korpusu Dialekt. Výběr korpusu se provádí z nabídky, která se objeví po kliknutí aktuálně zvolený korpus. Po následné volbě Všechny korpusy vybereme štítek mluvený a v jeho nabídce zvolíme úroveň, která bude primární: buď dialektologickou (**dialekt v1 - dial**), nebo ortografickou (**dialekt v1 - ort**); volba korpusu je obecně popsána v [[manualy:kontext:novy_dotaz#volba_korpusu|této části manuálu]]. | Po přihlášení do KonTextu nejprve vybereme korpus, který představuje požadovanou úroveň přepisu korpusu Dialekt. Výběr korpusu se provádí z nabídky, která se objeví po kliknutí na aktuálně zvolený korpus. Po následné volbě **Všechny korpusy** vybereme štítek **mluvený** a v jeho nabídce zvolíme úroveň, která bude primární: buď dialektologickou (**dialekt v1 - dial**), nebo ortografickou (**dialekt v1 - ort**); volba korpusu je obecně popsána v [[manualy:kontext:novy_dotaz#volba_korpusu|této části manuálu]]. |
| |
K primární úrovni je možné (ale ne nutné) přidat také úroveň sekundární, která se bude zobrazovat paralelně. Tu zvolíme v části **Zarovnané korpusy** rozkliknutím volby **Přidat korpus**, kde se jako jediná možnost zobrazí úroveň, která není zvolena jako primární. Vybereme-li také ji, objeví se samostatný oddíl pro vyhledávání v sekundární úrovni přepisu, který lze pomocí modrého křížku vpravo opět zavřít. Je-li zvolena sekundární úroveň přepisu, zobrazují se výsledky vyhledávání ve dvou sloupcích: levý zobrazuje úroveň zvolenou jako primární (a zároveň modře podbarvenou jako aktivní), pravý zobrazuje úroveň sekundární. | K primární úrovni je možné (ale ne nutné) přidat také úroveň sekundární, která se bude zobrazovat paralelně. Tu zvolíme v části **Zarovnané korpusy** rozkliknutím volby **Přidat korpus**, kde se jako jediná možnost zobrazí úroveň, která není zvolena jako primární. Vybereme-li také ji, objeví se samostatný oddíl pro vyhledávání v sekundární úrovni přepisu, který lze pomocí modrého křížku vpravo opět zavřít. Je-li zvolena sekundární úroveň přepisu, zobrazují se výsledky vyhledávání ve dvou sloupcích: levý zobrazuje úroveň zvolenou jako primární (a zároveň modře podbarvenou jako aktivní), pravý zobrazuje úroveň sekundární. |
==== 2.1 Nastavení/zobrazení některých funkcí a parametrů ==== | ==== 2.1 Nastavení/zobrazení některých funkcí a parametrů ==== |
| |
V hlavním manuálu se o korpusových nastaveních a volbách zobrazení dočtete [[manualy:kontext:moznosti_zobrazeni|zde]]. | V hlavním manuálu se o korpusových nastaveních a volbách zobrazení dočtete [[manualy:kontext:zobrazeni|zde]]. |
| |
=== Nastavení údajů při vyhledávání dotazu v kategorii Zobrazení === | === Nastavení údajů v kategorii Zobrazení === |
| |
Před zadáním dotazu do korpusu je užitečné si nahoře v kategorii **Zobrazení** nastavit určité typy údajů, které se nám ve vyhledaném výsledku zobrazí. Z nabídky si vybereme položku **Korpusová nastavení** a zobrazí se nám karta, kde jsou tři sloupce s údaji.\\ | Před zadáním dotazu do korpusu je užitečné si nahoře v kategorii **Zobrazení** nastavit určité typy údajů, které se nám ve vyhledaném výsledku zobrazí. Z nabídky si vybereme položku **Korpusová nastavení** a zobrazí se nám okno, kde lze zvolit jeden ze čtyř štítků.\\ |
V prvním sloupci – **Poziční atributy** – zatrhneme položku **ort**, pokud máme jako základní rovinu zvolenou dialektologickou a současně chceme zobrazit vedle vyhledaného výrazu i jeho podobu z roviny ortografické, klikneme pak zcela dole na tlačítko **Použít volby zobrazení**. Červeně budeme mít zobrazen výraz přepsaný na rovině dial, hned vedlej něj černě odpovídající podobu výrazu na rovině ort. Budeme-li mít jako základní zobrazenou rovinu ortografickou, můžeme si naopak ve sloupci Poziční atributy zaškrtnout **dial**. Když nebudeme chtít s druhou rovinou přepisu pracovat, tak si těchto položek všímat nemusíme.\\ | V rámci první možnosti – **Poziční atributy** – zatrhneme položku **ort**, pokud máme jako základní rovinu zvolenou dialektologickou a současně chceme zobrazit vedle vyhledaného výrazu i jeho podobu z roviny ortografické, klikneme pak zcela dole na tlačítko **Použít volby zobrazení**. Červeně budeme mít zobrazen výraz přepsaný na rovině dial, hned vedlej něj černě odpovídající podobu výrazu na rovině ort. Budeme-li mít jako základní zobrazenou rovinu ortografickou, můžeme si naopak zaškrtnout **dial**. Když nebudeme chtít s druhou rovinou přepisu pracovat, tak si těchto položek všímat nemusíme.\\ |
V prvním sloupci si také můžeme nastavit zobrazení slovního druhu zaškrtnutím položky **pos [part of speech]**. Vysvětlení hodnot morfologických značek (tagů), např. N (substantivum), V (verbum) apod. viz [[seznamy:tagy|Morfologické značky (tagy)]].\\ | V oddílu Poziční atributy si také můžeme nastavit zobrazení slovního druhu zaškrtnutím položky **pos [part of speech]**. Vysvětlení hodnot morfologických značek (tagů), např. N (substantivum), V (verbum) apod. viz [[seznamy:tagy|Morfologické značky (tagy)]].\\ |
V druhém sloupci – **Struktury** – je možné si zatrhnout položku **<doc>**, která v kontextu označuje hranici dokumentu. Položku **<sp>** vybereme v případě, že si přejeme zobrazit hranice střídání mluvčích. Ve sloupci struktury si také můžeme zvolit zobrazení různých informací o nahrávce nebo o mluvčím, které se pak zobrazují u vyznačené hranice, tedy uvnitř slovního kontextu.\\ | V druhém oddílu – **Struktury** – je možné si zatrhnout položku **<doc>**, která v kontextu označuje hranici dokumentu. Položku **<sp>** vybereme v případě, že si přejeme zobrazit hranice střídání mluvčích. Dále si zde můžeme zvolit zobrazení různých informací o nahrávce nebo o mluvčím, které se pak zobrazují u vyznačené hranice, tedy uvnitř slovního kontextu.\\ |
Ve třetím sloupci – **Metainformace** – se nám nabízejí opět informace o nahrávce nebo mluvčích, ty se ale po zvolení zobrazí v každém konkordančním řádku zcela vlevo. Můžeme např. zaškrtnout položku **doc.id** a pak se vlevo u každého konkordačního řádku zobrazí modrý název sondy. Pokud si chceme zobrazit, ve které nářeční oblasti mluvčí nejdéle žil, zaškrtneme položku **sp.noblastnej**. Údaj se nám zobrazí opět v konkordančních řádcích a dál podle toho můžeme roztřídit výsledek dotazu (viz níže). Případně si můžeme k názvu sondy přidat také téma nahrávky prostřednictvím položky **doc.tema**. Vysvětlení jednotlivých položek nalezneme v nejspodnějších dvou tabulkách v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]]. | Ve třetím oddílu – **Metainformace** – se nám nabízejí opět informace o nahrávce nebo mluvčích, ty se ale po zvolení zobrazí v každém konkordančním řádku zcela vlevo. Můžeme např. zaškrtnout položku **doc.id** a pak se vlevo u každého konkordačního řádku zobrazí modře označení sondy. Pokud si chceme zobrazit, ve které nářeční oblasti mluvčí nejdéle žil, zaškrtneme položku **sp.noblastnej**. Údaj se nám zobrazí opět v konkordančních řádcích a dál podle toho můžeme roztřídit výsledek dotazu (viz níže). Případně si můžeme k označení sondy přidat také téma nahrávky prostřednictvím položky **doc.tema**. Vysvětlení jednotlivých položek nalezneme ve dvou tabulkách věnovaných korpusu DIALEKT v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]]. |
| |
=== Zobrazení údajů o sondě a o mluvčích === | === Zobrazení údajů o sondě a o mluvčích === |
Pokud si ve vyhledaných konkordancích chceme zobrazit podrobnější údaje o nahrávce a o mluvčím, klikneme na **modrý název sondy**, např. 042-M-STM-1966-SA, který je umístěn na každém konkordančním řádku zcela vlevo (pokud jsme si zaškrtli doc.id v oddílu Zobrazení, sloupci Metainformace). Zobrazí se nám karta s popisem dokumentu (údaje o nahrávce jsou označeny značkou doc.) a s informacemi o mluvčím (jsou označeny značkou sp.). | Pokud si ve vyhledaných konkordancích chceme zobrazit podrobnější údaje o nahrávce a o mluvčím, klikneme na **modrý název sondy**, např. 042-M-STM-1966-SA, který je umístěn na každém konkordančním řádku zcela vlevo (pokud jsme si zaškrtli doc.id v oddílu Zobrazení, pododdílu Metainformace). Zobrazí se nám karta s popisem dokumentu (údaje o nahrávce jsou označeny značkou doc.) a s informacemi o mluvčím (jsou označeny značkou sp.). |
| |
=== Třídění výsledku dotazu === | === Třídění výsledku dotazu === |
| |
* Výchozí atribut: **word [dial]** | * Výchozí atribut: **word [dial]** |
* Dotaz: **b.* ** (se zapnutím regulárních výrazů, tečka zastupuje jeden jakýkoli znak, hvězdička jeho libovolné opakování včetně nulového) | * Položka **Povolit regulární výrazy** zapnuta (tečka zastupuje jeden jakýkoli znak, hvězdička jeho libovolné opakování včetně nulového) |
* Třídění podle abecedy: **Konkordance -- Třídění -- word [dial]** – setřídí všechny výskyty (tvary, slova apod.) podle abecedy | * Dotaz: **b.* ** |
* Frekvence: **Frekvence -- Slovní tvary** – jednotlivé tvary seřadí podle frekvence | * Třídění podle abecedy: **Konkordance -- Třídění -- word [dial]** – setřídí všechny vyhledané doklady podle abecedy |
Dotaz lze omezit např. zadáním **ba.* ** apod., potom opět můžeme roztřídit buď podle abecedy, nebo podle frekvence tvarů. | * Frekvence: **Frekvence -- Slovní tvary** – zobrazí seznam tvarů seřazený podle frekvence |
| Dotaz lze omezit např. zadáním **ba.* ** apod., potom opět můžeme roztřídit buď podle abecedy, nebo vytvořit seznam podle frekvence tvarů. |
| |
Pozn 1: Pokud se vám při zadání některého z dotazů objeví hlášení ve znění: „Byl detekován možný nesoulad mezi zvoleným a faktickým typem dotazu. Chcete pokračovat?“, nevšímejte si ho a potvrďte možnost Hledat. | Pozn 1: Pokud se vám při zadání některého z dotazů objeví hlášení ve znění: „Byl detekován možný nesoulad mezi zvoleným a faktickým typem dotazu. Chcete pokračovat?“, nevšímejte si ho a potvrďte možnost Hledat. |
| |
Pozn 2: Chcete-li z vyhledaného výsledku dotazu vybrat např. určitý slovní druh nebo tvar, v menu nahoře zvolíme Filtr, dále vybereme Pozitivní. Objeví se okénko pro zadání dotazu, tj. toho, co chceme z vyhledaného výsledu vybrat. Pokud si např. přejeme všechna substantiva, omezíme filtr pouze na vyhledaná slova, tj. zadáme v okénku rozsah od 0 do 0. Přepneme na pokročilý dotaz a do vyhledávacího řádku zadáme [tag=%%"%%N.*%%"%%], kde N značí substantiva a .* znamená, že další pozice v tagu mohou být jakékoli, tj. jakýkoli tvar substantiva. (Pokud si chceme zobrazit u výsledku vyhledávání slovní druh, zvolíme v Zobrazení -- Korpusová nastavení ve sloupci Poziční atributy pos [part of speech].) | Pozn 2: Chcete-li z vyhledaného výsledku dotazu vybrat např. určitý slovní druh nebo tvar, v menu nahoře zvolíme Filtr, dále vybereme Pozitivní. Objeví se okénko pro zadání dotazu, tj. toho, co chceme z vyhledaného výsledu vybrat. Pokud si např. přejeme všechna substantiva, omezíme filtr pouze na vyhledaná slova, tj. zadáme v okénku pod možností Upřesnit parametry rozsah od 0 do 0. Přepneme na pokročilý dotaz a do vyhledávacího řádku zadáme [tag=%%"%%N.*%%"%%], kde N značí substantiva a .* znamená, že další pozice v tagu mohou být jakékoli, tj. jakýkoli tvar substantiva. (Pokud si chceme zobrazit u výsledku vyhledávání slovní druh, zvolíme v Zobrazení -- Korpusová nastavení v oddílu Poziční atributy pos [part of speech].) |
| |
=== Konkrétní slovní tvar === | === Konkrétní slovní tvar === |
| |
=== Konkrétní slovní lemma === | === Konkrétní slovní lemma === |
* Výchozí atribut: **Lemma** | * Výchozí atribut: **lemma** |
* Dotaz: **tož** | * Dotaz: **tož** |
Najde všechny slovní tvary zařazené pod tímto lemmatem (//toš, tož, tuš, tuž, to//). | Najde všechny slovní tvary zařazené pod tímto lemmatem (//toš, tož, tuš, tuž, to//). |
=== Začátek slova === | === Začátek slova === |
* Výchozí atribut: **word [dial]** | * Výchozí atribut: **word [dial]** |
* Dotaz (se zapnutím regulárních výrazů): **bál.* ** | * Položka **Povolit regulární výrazy** zapnuta |
| * Dotaz: **bál.* ** |
Najde všechna slova, která začínají sledem znaků //bál//. | Najde všechna slova, která začínají sledem znaků //bál//. |
| |
=== Část slova === | === Část slova === |
* Výchozí atribut: **word [dial]** | * Výchozí atribut: **word [dial]** |
* Dotaz (se zapnutím regulárních výrazů): **.*bál.* ** | * Položka **Povolit regulární výrazy** zapnuta |
| * Dotaz: **.*bál.* ** |
Najde všechna slova, která obsahují sled znaků //bál//. | Najde všechna slova, která obsahují sled znaků //bál//. |
| |
=== Konkrétní znak, např. všechna slova obsazující tvrdé ł === | === Konkrétní znak, např. všechna slova obsazující tvrdé ł === |
* Výchozí atribut: **word [dial]** | * Výchozí atribut: **word [dial]** |
* Dotaz (se zapnutím regulárních výrazů): **.*ł.* ** | * Položka **Povolit regulární výrazy** zapnuta |
| * Dotaz: **.*ł.* ** |
| |
=== Všechna slova končící na tvrdé ł === | === Všechna slova končící na tvrdé ł === |
* Výchozí atribut: **word [dial]** | * Výchozí atribut: **word [dial]** |
* Dotaz (se zapnutím regulárních výrazů): **.*ł ** | * Položka **Povolit regulární výrazy** zapnuta |
| * Dotaz: **.*ł ** |
| |
=== Všechna slova s příponou -hle === | === Všechna slova s příponou -hle === |
* Výchozí atribut: **word [dial]** | * Výchozí atribut: **word [dial]** |
* Dotaz (se zapnutím regulárních výrazů): **.*hle ** | * Položka **Povolit regulární výrazy** zapnuta |
| * Dotaz: **.*hle ** |
Vyhledá ale i slova končící na //-chle//, těch se můžeme zbavit pomocí negativního filtru. V menu nahoře zvolíme Filtr -- Negativní a do dotazového řádku napíšeme ''.*chle''. | Vyhledá ale i slova končící na //-chle//, těch se můžeme zbavit pomocí negativního filtru. V menu nahoře zvolíme Filtr -- Negativní a do dotazového řádku napíšeme ''.*chle''. |
| |
=== Slovní spojení === | === Slovní spojení === |
* Výchozí atribut: **lemma** | |
* Dotaz: **černý kuchyně ** | |
* Dotaz: **čočkový polévka ** FIXME | |
| |
Pozn: Při zadávání dotazu musíme dávat pozor na lemmatizaci - kuchyně/kuchyň. | Zkusme si nejprve v korpusu **dialekt v1 - ort** zadat sousloví //sousední vesnice//. S výchozím atributem **word[ort]** dostaneme jeden výsledek, zajímají-li nás však výskyty daného sousloví ve všech pádových formách a nehledě na číslo, musíme změnit atribut na **lemma**. Přibudou dva výskyty (//sousedních vesnicích// a //sousední vesnici//, tedy po jednom tvaru lokálu plurálu a singuláru). Avšak pozor! U sousloví je zapotřebí si uvědomit tvar lemmatu, tj. reprezentativní slovníkový tvar, každé složky zvlášť a ty pak zadat do hledacího řádku. Marně bychom jako lemma hledali např. sousloví //světová válka//, je nutno uvést lemmata obou slov, tzn. //světový válka// (jakkoliv podivně to vypadá). Eventuelně je možné využít regulární výrazy: dotaz //světov.* vále?k.*// obsáhne veškeré tvary v rámci daného paradigmatu (vč. tvaru //válek//). |
| |
===== 3 Tipy pro práci se subkorpusy ===== | ===== 3 Tipy pro práci se subkorpusy ===== |
| |
Pro vyhledávání si můžeme zúžit výběr nahrávek podle předem zvolených kritérií, a to buď pomocí funkce **Omezit hledání** nebo **vytvořením subkorpusu**. (V hlavním manuálu se o první možnosti dočtete v oddílu [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]], v manuálu o mluvených korpusech [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|zde]] a o subkorpusech se můžete informovat [[manualy:kontext:subkorpus|zde]].) | Pro vyhledávání si můžeme zúžit výběr nahrávek podle předem zvolených kritérií, a to buď pomocí funkce **Omezit hledání** nebo **vytvořením subkorpusu**. (V hlavním manuálu se o první možnosti dočtete v oddílu [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]], v manuálu o mluvených korpusech [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|zde]] a o subkorpusech se můžete informovat [[manualy:kontext:korpusy#prace_se_subkorpusy|zde]].) |
| |
Funkci **Omezit hledání** nalezneme na hlavní vyhledávací stránce dole. Pokud na ni klikneme, zobrazí se nám řada skupin parametrů, podle kterých lze vybírat typy nahrávek nebo mluvčích, v rámci kterých se bude vyhledávat. | Funkci **Omezit hledání** nalezneme na hlavní vyhledávací stránce dole. Pokud na ni klikneme, zobrazí se nám řada skupin parametrů, podle kterých lze vybírat typy nahrávek nebo mluvčích, v rámci kterých se bude vyhledávat. |