Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:syntakticka_analyza [2018/08/08 16:21] – [8. Využití syntaktických atributů ve statistikách] vaclavcvrcek | kurz:syntakticka_analyza [2021/03/15 11:07] – michalskrabal |
---|
====== Hledání v syntakticky anotovaném korpusu ====== | ====== Hledání v syntakticky anotovaném korpusu ====== |
| |
Korpus [[cnk:syn2015|SYN2015]] byl opatřen syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině. | Korpusy [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]] byly opatřeny syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině. |
Anotace je závislostní, to znamená, že každý token (tedy jak slovo, tak interpunkční znaménka aj.) je závislý buď na jiném tokenu v téže větě, nebo na technickém (umělém) "kořenu" věty v případě, že slovo má v celé větě řídící funkci (obvykle sloveso). | Anotace je závislostní, to znamená, že každý token (tedy jak slovo, tak interpunkční znaménka aj.) je závislý buď na jiném tokenu v téže větě, nebo na technickém (umělém) "kořenu" věty v případě, že slovo má v celé větě řídící funkci (obvykle sloveso). |
Korpus byl označkován automaticky, přičemž chybovost značkování je cca 16%, tj. výrazně vyšší než v případě anotace morfologické. Chybovost je vyšší u méně častých a složitějších konstrukcí, nižší u jednodušších. | Korpus byl označkován automaticky, přičemž chybovost značkování je cca 16%, tj. výrazně vyšší než v případě anotace morfologické. Chybovost je vyšší u méně častých a složitějších konstrukcí, nižší u jednodušších. |
Pro efektivní vyhledávání v rozsáhlém korpusu bylo nutno anotaci zjednodušit, vyhledávat lze tedy ve směru od závislého tokenu k řídícímu, ne naopak. Syntaktická anotace je podrobněji popsána v [[pojmy:syntakticka_analyza|samostatném hesle]]; zde se naučíme, jak se syntaktickou anotací pracovat. Všechny dotazy jsou založené na dotazovacím jazyce [[kurz:pokrocile_dotazy|CQL]]. | Pro efektivní vyhledávání v rozsáhlém korpusu bylo nutno anotaci zjednodušit, vyhledávat lze tedy ve směru od závislého tokenu k řídícímu, ne naopak. Syntaktická anotace je podrobněji popsána v [[pojmy:syntakticka_analyza|samostatném hesle]]; zde se naučíme, jak se syntaktickou anotací pracovat. Všechny dotazy jsou založené na dotazovacím jazyce [[kurz:pokrocile_dotazy|CQL]]. |
| |
===== 1. Zobrazování závislostních struktur ===== | ===== 1. Zobrazování závislostních struktur ===== |
Než se ale dostaneme k dotazům na syntaktickou anotaci, podíváme se na to, jak závislostní struktury (tzv. stromy) v KonTextu zobrazovat. | Než se ale dostaneme k dotazům na syntaktickou anotaci, podíváme se na to, jak závislostní struktury (tzv. stromy) v KonTextu zobrazovat. |
Celý korpus SYN2015 je syntakticky označkovaný, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek: | Celé korpusy SYN2015 a SYN2020 jsou syntakticky označkované, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek: |
| |
[{{:kurz:kurz_synt_analyza_ex0.png?direct&700|Zobrazení syntaktického stromu FIXME}}] | [{{:kurz:kurz_synt_analyza_ex0.png?direct&700|Zobrazení syntaktického stromu FIXME}}] |
***p_case**: pád řídícího slova | ***p_case**: pád řídícího slova |
| |
[{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách}}] | [{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách FIXME }}] |
| |
Můžeme tak vyhledávat slova zároveň podle jejich vlastností a vlastností jejich řídícího slova. | Můžeme tak vyhledávat slova zároveň podle jejich vlastností a vlastností jejich řídícího slova. |