AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:syntakticka_analyza [2018/08/08 16:21] – [8. Využití syntaktických atributů ve statistikách] vaclavcvrcekkurz:syntakticka_analyza [2021/03/15 11:07] michalskrabal
Řádek 1: Řádek 1:
 ====== Hledání v syntakticky anotovaném korpusu ====== ====== Hledání v syntakticky anotovaném korpusu ======
  
-Korpus [[cnk:syn2015|SYN2015]] byl opatřen syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině.+Korpusy [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]] byly opatřeny syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině.
 Anotace je závislostní, to znamená, že každý token (tedy jak slovo, tak interpunkční znaménka aj.) je závislý buď na jiném tokenu v téže větě, nebo na technickém (umělém) "kořenu" věty v případě, že slovo má v celé větě řídící funkci (obvykle sloveso). Anotace je závislostní, to znamená, že každý token (tedy jak slovo, tak interpunkční znaménka aj.) je závislý buď na jiném tokenu v téže větě, nebo na technickém (umělém) "kořenu" věty v případě, že slovo má v celé větě řídící funkci (obvykle sloveso).
 Korpus byl označkován automaticky, přičemž chybovost značkování je cca 16%, tj. výrazně vyšší než v případě anotace morfologické. Chybovost je vyšší u méně častých a složitějších konstrukcí, nižší u jednodušších. Korpus byl označkován automaticky, přičemž chybovost značkování je cca 16%, tj. výrazně vyšší než v případě anotace morfologické. Chybovost je vyšší u méně častých a složitějších konstrukcí, nižší u jednodušších.
 Pro efektivní vyhledávání v rozsáhlém korpusu bylo nutno anotaci zjednodušit, vyhledávat lze tedy ve směru od závislého tokenu k řídícímu, ne naopak. Syntaktická anotace je podrobněji popsána v [[pojmy:syntakticka_analyza|samostatném hesle]]; zde se naučíme, jak se syntaktickou anotací pracovat. Všechny dotazy jsou založené na dotazovacím jazyce [[kurz:pokrocile_dotazy|CQL]]. Pro efektivní vyhledávání v rozsáhlém korpusu bylo nutno anotaci zjednodušit, vyhledávat lze tedy ve směru od závislého tokenu k řídícímu, ne naopak. Syntaktická anotace je podrobněji popsána v [[pojmy:syntakticka_analyza|samostatném hesle]]; zde se naučíme, jak se syntaktickou anotací pracovat. Všechny dotazy jsou založené na dotazovacím jazyce [[kurz:pokrocile_dotazy|CQL]].
 +
 ===== 1. Zobrazování závislostních struktur ===== ===== 1. Zobrazování závislostních struktur =====
 Než se ale dostaneme k dotazům na syntaktickou anotaci, podíváme se na to, jak závislostní struktury (tzv. stromy) v KonTextu zobrazovat. Než se ale dostaneme k dotazům na syntaktickou anotaci, podíváme se na to, jak závislostní struktury (tzv. stromy) v KonTextu zobrazovat.
-Celý korpus SYN2015 je syntakticky označkovaný, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek:+Celé korpusy SYN2015 a SYN2020 jsou syntakticky označkované, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek:
  
 [{{:kurz:kurz_synt_analyza_ex0.png?direct&700|Zobrazení syntaktického stromu FIXME}}] [{{:kurz:kurz_synt_analyza_ex0.png?direct&700|Zobrazení syntaktického stromu FIXME}}]
Řádek 77: Řádek 78:
   ***p_case**: pád řídícího slova   ***p_case**: pád řídícího slova
  
-[{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách}}]+[{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách FIXME }}]
  
 Můžeme tak vyhledávat slova zároveň podle jejich vlastností a vlastností jejich řídícího slova. Můžeme tak vyhledávat slova zároveň podle jejich vlastností a vlastností jejich řídícího slova.
Řádek 182: Řádek 183:
 Kliknutím na písmeno **p** ve spojení **p/n** (pod hlavičkou [[manualy:kontext:filtr|Filtr]]) aktivujeme pozitivní filtr s obsahem daného řádku na již vyhledanou konkordanci, díky čemuž lze rychle ověřit, nakolik je v daném případě syntaktická anotace správná. Uvidíme tak, že prostý nominativ a akuzativ jsou vesměs chybně interpretované jako přívlastky (popř. chybně morfologicky značkované), stejně tak třeba přívlastky s předložkou //s// a instrumentálem nebo s předložkou //o// a lokálem (chyba v určení pádu). Jinak je ale vrchní část tabulky zřejmě v pořádku, frekvence spojení "//zájem o// + akuzativ" převyšuje frekvenci "//zájem// + genitiv", s větším odstupem následují "//zájem na// + lokál", "//zájem v// + lokál" a "//zájem z// + genitiv". Z frekvenční distribuce je rychlý přístup k jednotlivým typům struktur. Kliknutím na písmeno **p** ve spojení **p/n** (pod hlavičkou [[manualy:kontext:filtr|Filtr]]) aktivujeme pozitivní filtr s obsahem daného řádku na již vyhledanou konkordanci, díky čemuž lze rychle ověřit, nakolik je v daném případě syntaktická anotace správná. Uvidíme tak, že prostý nominativ a akuzativ jsou vesměs chybně interpretované jako přívlastky (popř. chybně morfologicky značkované), stejně tak třeba přívlastky s předložkou //s// a instrumentálem nebo s předložkou //o// a lokálem (chyba v určení pádu). Jinak je ale vrchní část tabulky zřejmě v pořádku, frekvence spojení "//zájem o// + akuzativ" převyšuje frekvenci "//zájem// + genitiv", s větším odstupem následují "//zájem na// + lokál", "//zájem v// + lokál" a "//zájem z// + genitiv". Z frekvenční distribuce je rychlý přístup k jednotlivým typům struktur.
  
-Zadané dotazy a následné frekvenční distribuce mohou být výrazně cílenější i mnohem obecnější, záleží na cíli, kterého chceme dosáhnout. Syntaktické atributy nabízejí mnoho možností, jak z anotovaného textu získávat informace o syntaktických strukturách, možnosti však nejsou neomezené, například není snadné získat zobecněné informace o celých větných strukturách, popř. o více slovech závislých na jednom a ž slově... A vždy je třeba pamatovat na nutnost odstranit z výsledků chyby, které tam automatická syntaktická analýza vnáší.+Zadané dotazy a následné frekvenční distribuce mohou být výrazně cílenější i mnohem obecnější, záleží na cíli, kterého chceme dosáhnout. Syntaktické atributy nabízejí mnoho možností, jak z anotovaného textu získávat informace o syntaktických strukturách, možnosti však nejsou neomezené, například není snadné získat zobecněné informace o celých větných strukturách, popř. o více slovech závislých na jednom a témž slově. Vždy je také třeba pamatovat na nutnost odstranit z výsledků chyby, které tam automatická syntaktická analýza vnáší.
  
  
  --- //Tomáš Jelínek//  --- //Tomáš Jelínek//