Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verze | Následující verzeObě strany příští revize |
pojmy:struktura_korpusu [2015/02/11 12:04] – davidlukes | pojmy:struktura_korpusu [2015/04/13 10:01] – [Struktura v XML] Václav Cvrček |
---|
</code> | </code> |
| |
Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na DTD (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci). | Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na [[wp>Document_type_definition|DTD]] (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci). |
| |
Jeden dokument (označený XML elementem ''doc'') odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (''div''; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (''p'') a věty (''s''). Každý z těchto elementů začíná otevíracím tagem (např. pro věty ''<s ...>'') a je uzavřen tagem uzavíracím (''</s>''), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element ''div'' obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu. Všem dosud zmíněným elementům je společný atribut ''id'', identifikátor jednoznačně určující daný element v korpusu. | Jeden dokument (označený XML elementem ''doc'') odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (''div''; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (''p'') a věty (''s''). Každý z těchto elementů začíná otevíracím tagem (např. pro věty ''<s ...>'') a je uzavřen tagem uzavíracím (''</s>''), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element ''div'' obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu. Všem dosud zmíněným elementům je společný atribut ''id'', identifikátor jednoznačně určující daný element v korpusu. |
| |
--- //Michal Křen, Václav Cvrček// | --- //Michal Křen, Václav Cvrček// |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |