Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:struktura_korpusu [2015/02/11 12:04] – davidlukes
+++ pojmy:struktura_korpusu [2016/09/04 10:39] – michalskrabal
@@ Řádek 5: / Řádek 5: @@
 Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i různé formy jazyka [[wp>Standard_Generalized_Markup_Language|SGML]].
-===== Vertikála -- korpusy psaného jazyka =====
+===== Vertikála – korpusy psaného jazyka =====
 Vertikála je interní formát sloužící pro zachycení struktury korpusu a textů v něm (spolu s jejich anotací). V korpusu [[cnk:syn2010|SYN2010]] má např. následující podobu (jedná se o ukázku z díla A. C. Doyla Příběhy Sherlocka Holmese, konkrétně o větu //Když školení skončilo, přidělili mne k pátému northumberlandskému střeleckému pluku jako pomocného chirurga.//, která se nachází na začátku celé knihy):
@@ Řádek 90: / Řádek 90: @@
 </code>
-===== Vertikála - korpusy mluveného jazyka =====
+===== Vertikála – korpusy mluveného jazyka =====
 Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu [[cnk:oral2008|ORAL2008]]:
@@ Řádek 184: / Řádek 184: @@
 </code>
-Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na DTD (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci).
+Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na [[wp>Document_type_definition|DTD]] (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci).
 Jeden dokument (označený XML elementem ''doc'') odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (''div''; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (''p'') a věty (''s''). Každý z těchto elementů začíná otevíracím tagem (např. pro věty ''<s ...>'') a je uzavřen tagem uzavíracím (''</s>''), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element ''div'' obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu. Všem dosud zmíněným elementům je společný atribut ''id'', identifikátor jednoznačně určující daný element v korpusu.
@@ Řádek 193: / Řádek 193: @@
  --- //Michal Křen, Václav Cvrček//
 ==== Související odkazy ====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence