AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_diachronnim_korpusu [2018/08/08 15:06] Michal Škrabalkurz:hledani_v_diachronnim_korpusu [2018/08/08 15:11] (aktuální) Václav Cvrček
Řádek 6: Řádek 6:
   * texty jsou **transkribované** a pravidla přepisu se musela vyrovnat jak s dosavadní ediční praxí, tak s faktem, že se v průběhu sedmi staletí vývoje češtiny pravopisné systémy měnily -- důsledkem je, že pravopisné jevy lze v korpusu zkoumat jen v omezené míře;   * texty jsou **transkribované** a pravidla přepisu se musela vyrovnat jak s dosavadní ediční praxí, tak s faktem, že se v průběhu sedmi staletí vývoje češtiny pravopisné systémy měnily -- důsledkem je, že pravopisné jevy lze v korpusu zkoumat jen v omezené míře;
   * jedno slovo (slovní tvar) může mít více **variant** (podobně jako v [[kurz:hledani_v_mluvenych_korpusech|mluvených korpusech]]), např. //tehdy -- tehdyť -- tehdyž -- tehda -- tehdaž -- tehdať -- tehdas -- tehdá -- tehdáž//. Některé z nich bývají uvedeny ve slovnících, je však vhodné zkontrolovat možnosti variant pomocí regulárních výrazů (např. ''[word=%%"(?i)tehd.*"%%]''   * jedno slovo (slovní tvar) může mít více **variant** (podobně jako v [[kurz:hledani_v_mluvenych_korpusech|mluvených korpusech]]), např. //tehdy -- tehdyť -- tehdyž -- tehda -- tehdaž -- tehdať -- tehdas -- tehdá -- tehdáž//. Některé z nich bývají uvedeny ve slovnících, je však vhodné zkontrolovat možnosti variant pomocí regulárních výrazů (např. ''[word=%%"(?i)tehd.*"%%]''
- 
-[{{ :kurz:kurz_metainfo.png?direct&300|Výběr skupiny textů}}] 
  
 ===== Jak se v korpusu snadno zorientovat? =====  ===== Jak se v korpusu snadno zorientovat? ===== 
 +
 +[{{:kurz:kurz_metainfo.png?direct&300 |Výběr skupiny textů}}]
 +
 Základní přehled o tom, co Diakorp obsahuje, získáme po kliknutí na nabídku **Omezit hledání**. Zobrazí se seznamy [[cnk:diakorp#anotace_textovych_typu|textových kategorií]] zastoupených v korpusu (pod hlavičkou ''txtype_group'' jsou obecnější skupiny textů, pod ''txtype'' konkrétnější). Pokud nás některá kategorie zajímá, můžeme hledání rovnou omezit jen na ni. Základní přehled o tom, co Diakorp obsahuje, získáme po kliknutí na nabídku **Omezit hledání**. Zobrazí se seznamy [[cnk:diakorp#anotace_textovych_typu|textových kategorií]] zastoupených v korpusu (pod hlavičkou ''txtype_group'' jsou obecnější skupiny textů, pod ''txtype'' konkrétnější). Pokud nás některá kategorie zajímá, můžeme hledání rovnou omezit jen na ni.
  
Řádek 15: Řádek 16:
  
 Podobně je možné prohledávat pouze data z určitého časového období. K urychlení výběru textů podle roku vzniku (tj. aby nebylo nutné zaklikávat všechny jednotlivé roky) slouží textové pole, kam napíšeme počáteční a koncový rok (např. 1460 a 1620). Volbou **částečně vyhovující hodnoty → vyřadit** můžeme vyloučit texty, které do vybraného rozmezí patří jen vlivem nepřesné datace (např. 1450±10).  Podobně je možné prohledávat pouze data z určitého časového období. K urychlení výběru textů podle roku vzniku (tj. aby nebylo nutné zaklikávat všechny jednotlivé roky) slouží textové pole, kam napíšeme počáteční a koncový rok (např. 1460 a 1620). Volbou **částečně vyhovující hodnoty → vyřadit** můžeme vyloučit texty, které do vybraného rozmezí patří jen vlivem nepřesné datace (např. 1450±10). 
 +
 +<WRAP clear/>
  
    
Řádek 35: Řádek 38:
  
   - Hledáme v korpusu slovo, na které jsme narazili jinde a je rovněž neobvyklé, např. //polowjce// (polovina) -- standardní dotazy žádný výskyt nenaleznou (např. Slovní tvar: ''polovíce''; CQL: ''[word=%%"%%(?i)poloví[cč].*%%"%%]''), ale dotaz na opravené podoby ano: CQL: ''[e=%%"%%(?i)polowj[cč].*%%"%%]''. Poziční atribut "e" se zobrazuje i hledá podobně jako [[pojmy:lemma|lemma]], [[pojmy:word|word]] a jiné známé atributy.   - Hledáme v korpusu slovo, na které jsme narazili jinde a je rovněž neobvyklé, např. //polowjce// (polovina) -- standardní dotazy žádný výskyt nenaleznou (např. Slovní tvar: ''polovíce''; CQL: ''[word=%%"%%(?i)poloví[cč].*%%"%%]''), ale dotaz na opravené podoby ano: CQL: ''[e=%%"%%(?i)polowj[cč].*%%"%%]''. Poziční atribut "e" se zobrazuje i hledá podobně jako [[pojmy:lemma|lemma]], [[pojmy:word|word]] a jiné známé atributy.
-  - Potřebujeme odfiltrovat emendovaná slova z konkordance -- v nabídce **Filtr → Negativní** zadáme podmínku **kdykoli atribut něco obsahuje**: CQL: ''[e=%%".+"%%]''((Znak ''+'' je namísto znaku ''*'' právě proto, aby byl vyloučen nulový obsah)).+  - Potřebujeme odfiltrovat emendovaná slova z konkordance -- v nabídce **Filtr → Negativní** zadáme podmínku ''[e=%%".+"%%]''((Znak ''+'' je namísto znaku ''*'' právě proto, aby byl vyloučen nulový obsah)) (kdykoli atribut něco obsahuje).
  
 První případ zmiňujeme i proto, že rozhodování mezi emendací (s uložením původní podoby), nebo pouhou transkripcí neprobíhalo u některých méně jasných případů zcela konzistentně (roli hrálo mj. množství editorů, různé stáří textů a rozdíly mezi edičními zásadami uplatňovanými na texty z různých období, doklady nalezené i mimo slovníky apod.). Uživatelům je doporučeno kontrolovat u variantních tvarů s kolísající délkou samohlásky i atribut "e". První případ zmiňujeme i proto, že rozhodování mezi emendací (s uložením původní podoby), nebo pouhou transkripcí neprobíhalo u některých méně jasných případů zcela konzistentně (roli hrálo mj. množství editorů, různé stáří textů a rozdíly mezi edičními zásadami uplatňovanými na texty z různých období, doklady nalezené i mimo slovníky apod.). Uživatelům je doporučeno kontrolovat u variantních tvarů s kolísající délkou samohlásky i atribut "e".