...
Když když J,--------------
školení školení NNNS4-----A-----
skončilo skončit VpNS---3R-AA---P
, , Z:--------------
přidělili přidělit VpMP---3R-AA---P
mne já PP-S4--1--------
k k RR--3-----------
Pátému Pátý NNMS3-----A-----
northumberlandskému northumberlandský AAIS3----1A-----
střeleckému střelecký AAIS3----1A-----
pluku pluk NNIS3-----A-----
jako jako J,--------------
pomocného pomocný AAMS4----1A-----
chirurga chirurg NNMS4-----A-----
. . Z:--------------
...
...
...
Každý text (nazývaný **opus**) začíná specifickou značkou ''
Zde je poznačeno, kdo je autorem (je-li to známo), jaký je název textu, nakladatel, rok vydání, ISBN/ISSN, překladatel (není vyplněno u českých originálů), [[pojmy:srclang|zdrojový jazyk]] (taktéž) a stylové a žánrové zařazení textu (atributy [[pojmy:txtype|txtype_group]], [[pojmy:txtype|txtype]] a [[pojmy:genre|genre]]). Dále je v hlavičce zachyceno, jaké bylo [[pojmy:medium|médium]] zdrojového textu (např. B = kniha) a jaký je jeho jednoznačný identifikátor (id).
Pokud se text dělí na dokumenty (např. různé povídky) a na věty, následuje řádek se specifikací této strukturní jednotky:
V drtivé většině případů má strukturní značka ''
Když když J,--------------
školení školení NNNS4-----A-----
skončilo skončit VpNS---3R-AA---P
, , Z:--------------
přidělili přidělit VpMP---3R-AA---P
mne já PP-S4--1--------
k k RR--3-----------
Pátému Pátý NNMS3-----A-----
northumberlandskému northumberlandský AAIS3----1A-----
střeleckému střelecký AAIS3----1A-----
pluku pluk NNIS3-----A-----
jako jako J,--------------
pomocného pomocný AAMS4----1A-----
chirurga chirurg NNMS4-----A-----
. . Z:--------------
Všimněme si značky, kterou automatický tagger přiřadil tvaru //školení//: ''NNNS4.*''. Číslice 4 reprezentuje 4. pád, což znamená, že zde je v tagování chyba, ve skutečnosti se nejedná o realizaci akuzativní, ale nominativní. Chybovost automatického značkování dosahovala v SYN2010 cca 4,5 % až 5 %. V nejnovějších korpusech SYN (SYN2020 a pozdější) je chybovost cca 2,5 %, a to i se zahrnutím nové slovesné značky [[pojmy:verbtag|verbtag]] do výpočtu.
Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny:
...
jo
,
dyk
já
se
snažim
,
dyk
já
nechávám
všechno
na
koleji
v
rybičce
taky
.
...
Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na sondy (označené pomocí ''
Naděžda
Mandelštamová
DVĚ
KNIHY
VZPOMÍNEK
K
okenní
tabulce
přilnula
ženská
tvář
a
po
skle
začaly
pomalu
stékat
slzy
,
jako
kdyby
je
žena
měla
pořád
na
krajíčku
.
.
.
.
Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na [[wp>Document_type_definition|DTD]] (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci).
Jeden dokument (označený XML elementem ''doc'') odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (''div''; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (''p'') a věty (''s''). Každý z těchto elementů začíná otevíracím tagem (např. pro věty ''