AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:struktura_korpusu [2013/09/13 15:42] – Schvaleno pro 1. verzi vaclavcvrcekpojmy:struktura_korpusu [2014/11/24 13:00] vaclavcvrcek
Řádek 3: Řádek 3:
 [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.).
  
-Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty.+Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i různé formy jazyka [[wp>Standard_Generalized_Markup_Language|SGML]].
  
-===== Vertikála - korpusy psaného jazyka =====+===== Vertikála -- korpusy psaného jazyka =====
  
 Vertikála je interní formát sloužící pro zachycení struktury korpusu a textů v něm (spolu s jejich anotací). V korpusu [[cnk:syn2010|SYN2010]] má např. následující podobu (jedná se o ukázku z díla A. C. Doyla Příběhy Sherlocka Holmese, konkrétně o větu //Když školení skončilo, přidělili mne k pátému northumberlandskému střeleckému pluku jako pomocného chirurga.//, která se nachází na začátku celé knihy): Vertikála je interní formát sloužící pro zachycení struktury korpusu a textů v něm (spolu s jejich anotací). V korpusu [[cnk:syn2010|SYN2010]] má např. následující podobu (jedná se o ukázku z díla A. C. Doyla Příběhy Sherlocka Holmese, konkrétně o větu //Když školení skončilo, přidělili mne k pátému northumberlandskému střeleckému pluku jako pomocného chirurga.//, která se nachází na začátku celé knihy):
Řádek 79: Řádek 79:
 . . Z:-------------- . . Z:--------------
 </code> </code>
 +
 +Všimněme si značky, kterou automatický tagger přiřadil tvaru //školení//: ''NNNS4.*''. Číslice 4 reprezentuje 4. pád, což znamená, že zde je v tagování chyba, ve skutečnosti se nejedná o realizaci akuzativní, ale nominativní. Chybovost automatického značkování dosahuje cca 4 %. 
  
 Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny: Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny: