AplikaceAplikace
Nastavení

Parsing

Parsing je proces, při němž se z věty jako posloupnosti slov, která jsou příp. morfologicky analyzována a desambiguována, vytváří syntaktická struktura typicky v podobě závislostního nebo složkového stromu, což jsou zvláštní případy orientovaného grafu. Parsing vytváří korpusy syntakticky anotovaných struktur, tzv. treebanky (stromové databanky).

Obrázek závislostního stromu

V závislostním stromě každý uzel (příp. s výjimkou uzlů technických) reprezentuje jedno slovo, nejsou tu tedy žádné neterminální uzly. Některé uzly jsou spjaty závislostním vztahem (zachyceným tzv. hranou grafu). Je to vždy vztah binární mezi řídícím a závislým uzlem, přičemž hrana vede od řídícího uzlu k uzlu závislému (příp. i obráceně). Navíc je této hraně připsána hloubkově nebo povrchově syntaktická funkce příslušného syntaktického vztahu. Ve stromě, kde je syntaktická struktura věty vyjádřena bezprostředněsložkovým stromem, jsou mimo terminální uzly reprezentující jednotlivá slova věty i uzly neterminální zachycující syntaktické skupiny - fráze: např. nominální fráze, verbální fráze, klauze apod. Hrana v tomto stromě zachycuje vztah mezi složkou A a její bezprostřední složkou B.

Jednotlivým uzlům stromu jsou tu přiřazeny dva údaje: slovní tvar a syntaktická funkce charakterizující závislostní vztah mezi řídícím a závislým uzlem: podřízený uzel závisí na svém řídícím uzlu typem (zde povrchověsyntaktické) závislosti připsaným závislému uzlu. Parsing se provádí ručně nebo automaticky parserem, který je buď stochastický (založený na strojovém učení), nebo je založený na pravidlech (takových parserů je ale málo, žádný spolehlivý pravidlový parser pro češtinu nebyl vytvořen).

Syntaktická anotace korpusu SYN2015 byla provedena parserem TurboParser, anotace korpusu SYN2020 parserem Stack-Pointer Parser z řady nástrojů NeuroNLP 2. Verze 13ud paralelního korpusu InterCorp byla syntakticky (a morfologicky) anotována alternativním způsobem podle zásad mezinárodního projektu Universal Dependencies nástrojem UDPipe.

Parser

Parser (syntaktický analyzátor) je program, který realizuje parsing, tj. syntaktickou analýzu. Při této analýze je vstupní větě automaticky přiřazena syntaktická struktura věty a navíc jsou jednotlivým slovům a vytvořeným syntaktickým strukturám přiřazeny syntaktické funkce v podobě syntaktických tagů.

Obecněji je parser program, který na základě nějaké strukturní šablony (např. DTD - Document Type Definition) či gramatiky prověřuje, zda daný textový dokument má skutečně strukturu, kterou šablona či gramatika popisuje.

Související odkazy