AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_diachronnim_korpusu [2016/09/02 13:27] Michal Škrabalkurz:hledani_v_diachronnim_korpusu [2018/08/08 15:11] (aktuální) Václav Cvrček
Řádek 3: Řádek 3:
 Při vyhledávání v korpusu [[cnk:diakorp|Diakorp]] je třeba počítat s tím, že: Při vyhledávání v korpusu [[cnk:diakorp|Diakorp]] je třeba počítat s tím, že:
  
-  * korpus **není lemmatizovaný ani morfologicky označkovaný** (na rozdíl např. od korpusů řady [[cnk:syn|SYN]]) - je tedy možné klást pouze dotazy vycházející z konkrétních lexikálních jednotek (nikoli z gramatických kategorií) a pro obecnější zadání (např. //mohla v minulosti stát vokalizovaná předložka před slovem začínajícím na samohlásku?//) je nutné využít klikacích voleb grafického rozhraní nebo přímo [[pojmy:regularni_vyrazy|regulárních výrazů]]; +  * korpus **není lemmatizovaný ani morfologicky označkovaný** (na rozdíl např. od korpusů řady [[cnk:syn|SYN]]) -- je tedy možné klást pouze dotazy vycházející z konkrétních lexikálních jednotek (nikoli z gramatických kategorií) a pro obecnější zadání (např. //mohla v minulosti stát vokalizovaná předložka před slovem začínajícím na samohlásku?//) je nutné využít klikacích voleb grafického rozhraní nebo přímo [[pojmy:regularni_vyrazy|regulárních výrazů]]; 
-  * texty jsou **transkribované** a pravidla přepisu se musela vyrovnat jak s dosavadní ediční praxí, tak s faktem, že se v průběhu sedmi staletí vývoje češtiny pravopisné systémy měnily - důsledkem je, že pravopisné jevy lze v korpusu zkoumat jen v omezené míře; +  * texty jsou **transkribované** a pravidla přepisu se musela vyrovnat jak s dosavadní ediční praxí, tak s faktem, že se v průběhu sedmi staletí vývoje češtiny pravopisné systémy měnily -- důsledkem je, že pravopisné jevy lze v korpusu zkoumat jen v omezené míře; 
-  * jedno slovo (slovní tvar) může mít více **variant** (podobně jako v [[kurz:hledani_v_mluvenych_korpusech|mluvených korpusech]]), např. //tehdy - tehdyť - tehdyž - tehda - tehdaž - tehdať - tehdas - tehdá - tehdáž// - některé z nich bývají uvedeny ve slovnících, je však vhodné zkontrolovat možnosti variant pomocí regulárních výrazů (např. ''[word=%%"%%(?i)tehd.*%%"%%]''[{{ :kurz:kurz_metainfo.png?300|Výběr skupiny textů}}]+  * jedno slovo (slovní tvar) může mít více **variant** (podobně jako v [[kurz:hledani_v_mluvenych_korpusech|mluvených korpusech]]), např. //tehdy -- tehdyť -- tehdyž -- tehda -- tehdaž -- tehdať -- tehdas -- tehdá -- tehdáž//. Některé z nich bývají uvedeny ve slovnících, je však vhodné zkontrolovat možnosti variant pomocí regulárních výrazů (např. ''[word=%%"(?i)tehd.*"%%]''
  
 ===== Jak se v korpusu snadno zorientovat? =====  ===== Jak se v korpusu snadno zorientovat? ===== 
-Základní přehled o tom, co Diakorp obsahuje, získáme po kliknutí na nabídku **Specifikovat dotaz podle metainformací**. Zobrazí se seznamy [[cnk:diakorp#anotace_textovych_typu|textových kategorií]] zastoupených v korpusu (pod hlavičkou ''txtype_group'' jsou obecnější skupiny textů, pod ''txtype'' konkrétnější). Pokud nás některá kategorie zajímá, můžeme hledání rovnou omezit jen na ni. 
  
-[{{ :kurz:kurz_cas.png?300|Výběr časového úseku}}]+[{{:kurz:kurz_metainfo.png?direct&300 |Výběr skupiny textů}}]
  
-Podobně je možné prohledávat pouze data z určitého časového období. K urychlení výběru textů podle roku vzniku (tj. aby nebylo nutné zaklikávat všechny jednotlivé roky) slouží textové pole, kam napíšeme počáteční a koncový rok (např. 1460 a 1620). Volbou ''částečně vyhovující hodnoty > vyřadit'' můžeme vyloučit texty, které do vybraného rozmezí patří jen vlivem nepřesné datace (např. 1450±10)+Základní přehled o tom, co Diakorp obsahuje, získáme po kliknutí na nabídku **Omezit hledání**. Zobrazí se seznamy [[cnk:diakorp#anotace_textovych_typu|textových kategorií]] zastoupených v korpusu (pod hlavičkou ''txtype_group'' jsou obecnější skupiny textů, pod ''txtype'' konkrétnější). Pokud nás která kategorie zajímá, můžeme hledání rovnou omezit jen na ni.
  
-  +[{{ :kurz:kurz_cas.png?direct&300|Výběr časového úseku}}]
-===== Jak v dotazu využít strukturního značkování textů=====+
  
 +Podobně je možné prohledávat pouze data z určitého časového období. K urychlení výběru textů podle roku vzniku (tj. aby nebylo nutné zaklikávat všechny jednotlivé roky) slouží textové pole, kam napíšeme počáteční a koncový rok (např. 1460 a 1620). Volbou **částečně vyhovující hodnoty → vyřadit** můžeme vyloučit texty, které do vybraného rozmezí patří jen vlivem nepřesné datace (např. 1450±10). 
  
-[{{  :kurz:dotaz_diakorp1.png?nolink&400|Hledání v Diakorpu pomocí podmínky within}}]+<WRAP clear/>
  
-Značky vymezující zvláštní součásti textu (poznámky pod čarou <n></n>, verše <v></v>, nadpisy <k></k>, cizojazyčný text <o></o> ad.) jsou v Diakorpu verze 6 [[pojmy:atributy_strukturni|strukturními atributy]] a lze v jejich rámci hledat pomocí podmínky ''[[pojmy:within|within]]''. Můžeme např. zjistit, jak často začínaly nadpisy či součásti nadpisů v různých dílech tázacím příslovcem //Proč//, anebo předložkou //O//.+  
 +===== Jak dotazu využít strukturního značkování textů? =====
  
-[{{ :kurz:dotaz_diakorp2.png?nolink&300|Zadání negativního filtru}}] 
-      
-Pomocí strukturních atributů můžeme také odstranit ta vyhledaná klíčová slova ([[pojmy:kwic|KWIC]]), která spadají do nežádoucí součásti textu. Hledáme např. slovní tvary s koncovou diftongizací //-uo(v)// a chceme odfiltrovat všechen cizojazyčný text (např. //quo//). Po zadání dotazu typu CQL ''[word=%%"%%.*uov?%%"%%]'', kterým nalezneme slovní tvary končící jak na //-uov//, tak na //-uo// (zápis doslova říká, že koncové //-v// je "s otazníkem"), zvolíme v horní nabídce rozhraní KonText ''Filtr > Negativní'' a zapíšeme, co má být z konkordance vymazáno. 
  
 +[{{  :kurz:dotaz_diakorp1.png?direct&400|Hledání v Diakorpu pomocí podmínky within}}]
  
 +Značky vymezující zvláštní součásti textu (poznámky pod čarou ''<n> </n>'', verše ''<v> </v>'', nadpisy ''<k> </k>'', cizojazyčný text ''<o> </o>'' aj.) jsou v Diakorpu verze 6 [[pojmy:atributy_strukturni|strukturními atributy]] a lze v jejich rámci hledat pomocí podmínky ''[[pojmy:within|within]]''. Můžeme např. zjistit, jak často začínaly nadpisy či součásti nadpisů v různých dílech tázacím příslovcem //proč// anebo předložkou //o//.
 +     
 +Pomocí strukturních atributů můžeme také odstranit ta vyhledaná klíčová slova ([[pojmy:kwic|KWIC]]), která spadají do nežádoucí součásti textu. Hledáme např. slovní tvary s koncovou diftongizací //-uo(v)// a chceme odfiltrovat všechen cizojazyčný text (např. //quo//). Po zadání dotazu typu CQL ''[word=%%".*uov?"%%]'', kterým nalezneme slovní tvary končící jak na //-uov//, tak na //-uo//, zvolíme v horní nabídce rozhraní KonText **Filtr → Negativní** a zapíšeme, co má být z konkordance vymazáno.
  
-Zápis můžeme číst jako "vymaž jakékoli klíčové slovo (KWIC), které je součástí cizojazyčného textu".+[{{ :kurz:dotaz_diakorp2.png?direct&300|Zadání negativního filtru. Zápis můžeme číst jako "vymaž jakékoli klíčové slovo (KWIC), které je součástí cizojazyčného textu".}}]
  
-Počáteční (<nowiki><k></nowiki>) a koncovou část atributů (<nowiki></k></nowiki>) můžeme použít také samostatně, k vyhledání slovního tvaru stojícího na začátku nebo na konci daného textového úseku. Ani tehdy se strukturní atribut neuvádí v uvozovkách ani v jiných závorkách (např. CQL''<v> [word=%%"%%A%%"%%]'' kdy veršovaný úsek začíná spojkou //A//?+Počáteční (''<k>'') a koncovou část atributů (''</k>'') můžeme použít také samostatně, k vyhledání slovního tvaru stojícího na začátkunebo na konci daného textového úseku. Ani tehdy se strukturní atribut neuvádí v uvozovkách či v jiných závorkách (např. CQL dotazem ''<v> [word=%%"A"%%]'' hledáme všechny případy, kdy veršovaný úsek začíná spojkou //a//)
  
 ===== Jak najít původní podobu upraveného slova? ===== ===== Jak najít původní podobu upraveného slova? =====
  
-Pokud se editor setkal s neočekávanou grafickou podobou slova a vyhodnotil tuto odchylku spíše jako záležitost pravopisu než fonologie, podobu slova upravil (**emendoval**) a původní, transliterovaný zápis uložil do [[pojmy:atributy_pozicni|pozičního atributu]] **"e"**. Tato informace je užitečná zejména ve dvou případech:+Pokud se editor setkal s neočekávanou grafickou podobou slova a vyhodnotil tuto odchylku spíše jako záležitost pravopisu než fonologie, podobu slova upravil (emendoval) a původní, transliterovaný zápis uložil do [[pojmy:atributy_pozicni|pozičního atributu]] **e**. Tato informace je užitečná zejména ve dvou případech:
  
-  - hledáme v korpusu slovo, na které jsme narazili jinde a je rovněž neobvyklé, např. //polowjce// (polovina) - standardní dotazy žádný výskyt nenaleznou (např. Slovní tvar: ''polovíce''; CQL: ''[word=%%"%%(?i)poloví[cč].*%%"%%]''), ale dotaz na opravené podoby ano: CQL: ''[e=%%"%%(?i)polowj[cč].*%%"%%]''. Poziční atribut "e" se zobrazuje i hledá podobně jako [[pojmy:lemma|lemma]], [[pojmy:word|word]] a jiné známé atributy. +  - Hledáme v korpusu slovo, na které jsme narazili jinde a je rovněž neobvyklé, např. //polowjce// (polovina) -- standardní dotazy žádný výskyt nenaleznou (např. Slovní tvar: ''polovíce''; CQL: ''[word=%%"%%(?i)poloví[cč].*%%"%%]''), ale dotaz na opravené podoby ano: CQL: ''[e=%%"%%(?i)polowj[cč].*%%"%%]''. Poziční atribut "e" se zobrazuje i hledá podobně jako [[pojmy:lemma|lemma]], [[pojmy:word|word]] a jiné známé atributy. 
-  - potřebujeme odfiltrovat emendovaná slova z konkordance - do ''Filtr Negativní'' zadáme podmínku "kdykoli atribut něco obsahuje": CQL: ''[e=%%"%%.+%%"%%]'' (znak ''+'' je na místo znaku ''*'' právě proto, aby byl vyloučen nulový obsah).+  - Potřebujeme odfiltrovat emendovaná slova z konkordance -- v nabídce **Filtr → Negativní** zadáme podmínku ''[e=%%".+"%%]''((Znak ''+'' je namísto znaku ''*'' právě proto, aby byl vyloučen nulový obsah)) (kdykoli atribut něco obsahuje).
  
 První případ zmiňujeme i proto, že rozhodování mezi emendací (s uložením původní podoby), nebo pouhou transkripcí neprobíhalo u některých méně jasných případů zcela konzistentně (roli hrálo mj. množství editorů, různé stáří textů a rozdíly mezi edičními zásadami uplatňovanými na texty z různých období, doklady nalezené i mimo slovníky apod.). Uživatelům je doporučeno kontrolovat u variantních tvarů s kolísající délkou samohlásky i atribut "e". První případ zmiňujeme i proto, že rozhodování mezi emendací (s uložením původní podoby), nebo pouhou transkripcí neprobíhalo u některých méně jasných případů zcela konzistentně (roli hrálo mj. množství editorů, různé stáří textů a rozdíly mezi edičními zásadami uplatňovanými na texty z různých období, doklady nalezené i mimo slovníky apod.). Uživatelům je doporučeno kontrolovat u variantních tvarů s kolísající délkou samohlásky i atribut "e".