AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:parser [2013/08/22 14:17] alzbetavitkovapojmy:parser [2022/08/13 13:31] (aktuální) – [Parsing] alexandrrosen
Řádek 2: Řádek 2:
  
 Parsing je proces, při němž se z věty jako posloupnosti slov, která jsou příp. [[pojmy:morfologicka_analyza|morfologicky analyzována]] a [[pojmy:desambiguace|desambiguována]], vytváří syntaktická struktura typicky v podobě závislostního nebo složkového stromu, což jsou zvláštní případy orientovaného grafu. Parsing vytváří korpusy syntakticky anotovaných struktur, tzv. //treebanky// (stromové databanky). Parsing je proces, při němž se z věty jako posloupnosti slov, která jsou příp. [[pojmy:morfologicka_analyza|morfologicky analyzována]] a [[pojmy:desambiguace|desambiguována]], vytváří syntaktická struktura typicky v podobě závislostního nebo složkového stromu, což jsou zvláštní případy orientovaného grafu. Parsing vytváří korpusy syntakticky anotovaných struktur, tzv. //treebanky// (stromové databanky).
 +
 +[{{ :pojmy:strom.png?direct&150|Obrázek závislostního stromu}}]
  
 V závislostním stromě každý uzel (příp. s výjimkou uzlů technických) reprezentuje jedno slovo, nejsou tu tedy žádné neterminální uzly. Některé uzly jsou spjaty závislostním vztahem (zachyceným tzv. hranou grafu). Je to vždy vztah binární mezi řídícím a závislým uzlem, přičemž hrana vede od řídícího uzlu k uzlu závislému (příp. i obráceně). Navíc je této hraně připsána hloubkově nebo povrchově syntaktická funkce příslušného syntaktického vztahu. Ve stromě, kde je syntaktická struktura věty vyjádřena bezprostředněsložkovým stromem, jsou mimo terminální uzly reprezentující jednotlivá slova věty i uzly neterminální zachycující syntaktické skupiny - fráze: např. nominální fráze, verbální fráze, klauze apod. Hrana v tomto stromě zachycuje vztah mezi složkou A a její bezprostřední složkou B. V závislostním stromě každý uzel (příp. s výjimkou uzlů technických) reprezentuje jedno slovo, nejsou tu tedy žádné neterminální uzly. Některé uzly jsou spjaty závislostním vztahem (zachyceným tzv. hranou grafu). Je to vždy vztah binární mezi řídícím a závislým uzlem, přičemž hrana vede od řídícího uzlu k uzlu závislému (příp. i obráceně). Navíc je této hraně připsána hloubkově nebo povrchově syntaktická funkce příslušného syntaktického vztahu. Ve stromě, kde je syntaktická struktura věty vyjádřena bezprostředněsložkovým stromem, jsou mimo terminální uzly reprezentující jednotlivá slova věty i uzly neterminální zachycující syntaktické skupiny - fráze: např. nominální fráze, verbální fráze, klauze apod. Hrana v tomto stromě zachycuje vztah mezi složkou A a její bezprostřední složkou B.
  
-Jednotlivým uzlům stromu jsou tu přiřazeny dva údaje: slovní tvar a syntaktická funkce charakterizující závislostní vztah mezi řídícím a závislým uzlem: podřízený uzel závisí na svém řídícím uzlu typem (zde povrchověsyntaktické) závislosti připsaným závislému uzlu. Parsing se provádí ručně nebo automaticky parserem, který je buď stochastický (náhdoný), nebo je založený na pravidlech. +Jednotlivým uzlům stromu jsou tu přiřazeny dva údaje: slovní tvar a syntaktická funkce charakterizující závislostní vztah mezi řídícím a závislým uzlem: podřízený uzel závisí na svém řídícím uzlu typem (zde povrchověsyntaktické) závislosti připsaným závislému uzlu. Parsing se provádí ručně nebo automaticky parserem, který je buď [[wp>Stochastic#Language_and_linguistics|stochastický]] (založený na strojovém učení), nebo je založený na pravidlech (takových parserů je ale málo, žádný spolehlivý pravidlový parser pro češtinu nebyl vytvořen). 
 + 
 +Syntaktická anotace korpusu [[cnk:syn2015|SYN2015]] byla provedena parserem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]], anotace korpusu [[cnk:syn2020|SYN2020]] parserem Stack-Pointer Parser z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP 2]]. Verze [[cnk:intercorp:verze13ud|13ud]] paralelního korpusu [[cnk:intercorp|InterCorp]] byla syntakticky (a morfologicky) anotována alternativním způsobem podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]] nástrojem [[http://ufal.mff.cuni.cz/udpipe|UDPipe]]
  
 ===== Parser ===== ===== Parser =====
  
-//Parser// (syntaktický analyzátor) je program, který realizuje parsing, tj. syntaktickou analýzu. Při této analýze je vstupní větě automaticky přiřazena syntaktická struktura věty a navíc jsou jednotlivým slovům a vytvořeným syntaktickým strukturám přiřazeny syntaktické funkce v podobě syntaktických [[pojmy:tag|tagů]].+//Parser// (syntaktický analyzátor) je program, který realizuje parsing, tj. syntaktickou analýzu. Při této analýze je vstupní větě automaticky přiřazena syntaktická struktura věty a navíc jsou jednotlivým slovům a vytvořeným syntaktickým strukturám přiřazeny syntaktické funkce v podobě [[seznamy:syntakticke_znacky|syntaktických tagů]].
  
 Obecněji je parser program, který na základě nějaké strukturní šablony (např. //DTD - Document Type Definition//) či gramatiky prověřuje, zda daný textový dokument má skutečně strukturu, kterou šablona či gramatika popisuje.  Obecněji je parser program, který na základě nějaké strukturní šablony (např. //DTD - Document Type Definition//) či gramatiky prověřuje, zda daný textový dokument má skutečně strukturu, kterou šablona či gramatika popisuje. 
 +
 +==== Související odkazy ====
 +
 +<WRAP round box 49%>
 +[[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagování]] • [[pojmy:precision|Precision a recall]]
 +</WRAP>