Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:syntakticka_analyza [2018/08/08 16:21] – [8. Využití syntaktických atributů ve statistikách] vaclavcvrcek
+++ kurz:syntakticka_analyza [2021/03/15 11:07] – michalskrabal
@@ Řádek 1: / Řádek 1: @@
 ====== Hledání v syntakticky anotovaném korpusu ======
-Korpus [[cnk:syn2015|SYN2015]] byl opatřen syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině.
+Korpusy [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]] byly opatřeny syntaktickou anotací, která k morfologické anotaci a lemmatizaci přidává informaci o vztazích mezi slovy ve větě. Syntaktická anotace vychází z [[https://ufal.mff.cuni.cz/pdt2.0|Pražského závislostního korpusu]], z anotace na tzv. analytické (povrchové) rovině.
 Anotace je závislostní, to znamená, že každý token (tedy jak slovo, tak interpunkční znaménka aj.) je závislý buď na jiném tokenu v téže větě, nebo na technickém (umělém) "kořenu" věty v případě, že slovo má v celé větě řídící funkci (obvykle sloveso).
 Korpus byl označkován automaticky, přičemž chybovost značkování je cca 16%, tj. výrazně vyšší než v případě anotace morfologické. Chybovost je vyšší u méně častých a složitějších konstrukcí, nižší u jednodušších.
 Pro efektivní vyhledávání v rozsáhlém korpusu bylo nutno anotaci zjednodušit, vyhledávat lze tedy ve směru od závislého tokenu k řídícímu, ne naopak. Syntaktická anotace je podrobněji popsána v [[pojmy:syntakticka_analyza|samostatném hesle]]; zde se naučíme, jak se syntaktickou anotací pracovat. Všechny dotazy jsou založené na dotazovacím jazyce [[kurz:pokrocile_dotazy|CQL]].
 ===== 1. Zobrazování závislostních struktur =====
 Než se ale dostaneme k dotazům na syntaktickou anotaci, podíváme se na to, jak závislostní struktury (tzv. stromy) v KonTextu zobrazovat.
-Celý korpus SYN2015 je syntakticky označkovaný, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek:
+Celé korpusy SYN2015 a SYN2020 jsou syntakticky označkované, u výsledku jakéhokoli dotazu můžeme vždy zobrazit kliknutím na ikonku {{:manualy:kontext:syntax-tree-icon.png?nolink&20|Ikonka pro zobrazení syntaktického stromu}} na levé straně konkordanční řádky, jak ukazuje obrázek:
 [{{:kurz:kurz_synt_analyza_ex0.png?direct&700|Zobrazení syntaktického stromu FIXME}}]
@@ Řádek 77: / Řádek 78: @@
   ***p_case**: pád řídícího slova
-[{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách}}]
+[{{ :kurz:kurz_synt_analyza_ex3.png?direct&500|CQL dotaz na substantiva závislá na následujících číslovkách FIXME }}]
 Můžeme tak vyhledávat slova zároveň podle jejich vlastností a vlastností jejich řídícího slova.
@@ Řádek 182: / Řádek 183: @@
 Kliknutím na písmeno **p** ve spojení **p/n** (pod hlavičkou [[manualy:kontext:filtr|Filtr]]) aktivujeme pozitivní filtr s obsahem daného řádku na již vyhledanou konkordanci, díky čemuž lze rychle ověřit, nakolik je v daném případě syntaktická anotace správná. Uvidíme tak, že prostý nominativ a akuzativ jsou vesměs chybně interpretované jako přívlastky (popř. chybně morfologicky značkované), stejně tak třeba přívlastky s předložkou //s// a instrumentálem nebo s předložkou //o// a lokálem (chyba v určení pádu). Jinak je ale vrchní část tabulky zřejmě v pořádku, frekvence spojení "//zájem o// + akuzativ" převyšuje frekvenci "//zájem// + genitiv", s větším odstupem následují "//zájem na// + lokál", "//zájem v// + lokál" a "//zájem z// + genitiv". Z frekvenční distribuce je rychlý přístup k jednotlivým typům struktur.
-Zadané dotazy a následné frekvenční distribuce mohou být výrazně cílenější i mnohem obecnější, záleží na cíli, kterého chceme dosáhnout. Syntaktické atributy nabízejí mnoho možností, jak z anotovaného textu získávat informace o syntaktických strukturách, možnosti však nejsou neomezené, například není snadné získat zobecněné informace o celých větných strukturách, popř. o více slovech závislých na jednom a též slově... A vždy je třeba pamatovat na nutnost odstranit z výsledků chyby, které tam automatická syntaktická analýza vnáší.
+Zadané dotazy a následné frekvenční distribuce mohou být výrazně cílenější i mnohem obecnější, záleží na cíli, kterého chceme dosáhnout. Syntaktické atributy nabízejí mnoho možností, jak z anotovaného textu získávat informace o syntaktických strukturách, možnosti však nejsou neomezené, například není snadné získat zobecněné informace o celých větných strukturách, popř. o více slovech závislých na jednom a témž slově. Vždy je také třeba pamatovat na nutnost odstranit z výsledků chyby, které tam automatická syntaktická analýza vnáší.
  --- //Tomáš Jelínek//

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence