AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:syntakticka_analyza [2018/08/08 16:21] – [8. Využití syntaktických atributů ve statistikách] vaclavcvrcekkurz:syntakticka_analyza [2021/03/15 11:07] michalskrabal
Řádek 1: Řádek 1:
 ====== Hledání v syntakticky anotovaném korpusu ====== ====== Hledání v syntakticky anotovaném korpusu ======
  
-Korpus [[cnk:syn2015|SYN2015]] byl opatřen syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině.+Korpusy [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]] byly opatřeny syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině.
 Anotace je závislostní, to znamená, že každý token (tedy jak slovo, tak interpunkční znaménka aj.) je závislý buď na jiném tokenu v téže větě, nebo na technickém (umělém) "kořenu" věty v případě, že slovo má v celé větě řídící funkci (obvykle sloveso). Anotace je závislostní, to znamená, že každý token (tedy jak slovo, tak interpunkční znaménka aj.) je závislý buď na jiném tokenu v téže větě, nebo na technickém (umělém) "kořenu" věty v případě, že slovo má v celé větě řídící funkci (obvykle sloveso).
 Korpus byl označkován automaticky, přičemž chybovost značkování je cca 16%, tj. výrazně vyšší než v případě anotace morfologické. Chybovost je vyšší u méně častých a složitějších konstrukcí, nižší u jednodušších. Korpus byl označkován automaticky, přičemž chybovost značkování je cca 16%, tj. výrazně vyšší než v případě anotace morfologické. Chybovost je vyšší u méně častých a složitějších konstrukcí, nižší u jednodušších.
 Pro efektivní vyhledávání v rozsáhlém korpusu bylo nutno anotaci zjednodušit, vyhledávat lze tedy ve směru od závislého tokenu k řídícímu, ne naopak. Syntaktická anotace je podrobněji popsána v [[pojmy:syntakticka_analyza|samostatném hesle]]; zde se naučíme, jak se syntaktickou anotací pracovat. Všechny dotazy jsou založené na dotazovacím jazyce [[kurz:pokrocile_dotazy|CQL]]. Pro efektivní vyhledávání v rozsáhlém korpusu bylo nutno anotaci zjednodušit, vyhledávat lze tedy ve směru od závislého tokenu k řídícímu, ne naopak. Syntaktická anotace je podrobněji popsána v [[pojmy:syntakticka_analyza|samostatném hesle]]; zde se naučíme, jak se syntaktickou anotací pracovat. Všechny dotazy jsou založené na dotazovacím jazyce [[kurz:pokrocile_dotazy|CQL]].
 +
 ===== 1. Zobrazování závislostních struktur ===== ===== 1. Zobrazování závislostních struktur =====
 Než se ale dostaneme k dotazům na syntaktickou anotaci, podíváme se na to, jak závislostní struktury (tzv. stromy) v KonTextu zobrazovat. Než se ale dostaneme k dotazům na syntaktickou anotaci, podíváme se na to, jak závislostní struktury (tzv. stromy) v KonTextu zobrazovat.
-Celý korpus SYN2015 je syntakticky označkovaný, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek:+Celé korpusy SYN2015 a SYN2020 jsou syntakticky označkované, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek:
  
 [{{:kurz:kurz_synt_analyza_ex0.png?direct&700|Zobrazení syntaktického stromu FIXME}}] [{{:kurz:kurz_synt_analyza_ex0.png?direct&700|Zobrazení syntaktického stromu FIXME}}]
Řádek 77: Řádek 78:
   ***p_case**: pád řídícího slova   ***p_case**: pád řídícího slova
  
-[{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách}}]+[{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách FIXME }}]
  
 Můžeme tak vyhledávat slova zároveň podle jejich vlastností a vlastností jejich řídícího slova. Můžeme tak vyhledávat slova zároveň podle jejich vlastností a vlastností jejich řídícího slova.