Skrýt
Nastavení

Strukturní jednotky a atributy

Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí metadat) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní strukturace. Každý korpus se tak člení na různé strukturní jednotky a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více strukturních atributů.

Strukturní jednotky

Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi SYN2000, prvním velkým korpusem ČNK, a ostatními korpusy řady SYN).

Struktura korpusů psané češtiny

V psaných korpusech řady SYN nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:

  • opus - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech SYN2005SYN2013PUB
  • doc - různá platnost v různých korpusech:
    1. text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - v korpusu SYN2000; v korpusu SYN2015 a novějších
    2. v korpusech s jednotkou <opus>: dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek)
  • text - v korpusech s hierarchicky nejvyšší jednotkou <doc>: text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.)
  • p - odstavec
  • s - věta (sentence); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty

Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).

Schematické znázornění hierarchie strukturních jednotek v korpusech řady SYN:

Strukturní jednotka v SYN2000 Strukturní jednotka v korpusech SYN2005 až SYN2013PUB Strukturní jednotka v SYN2015
<doc> <opus> <doc>
<doc> <text>
<p>
<s> <s> <s>

Strukturní atributy se obvykle zapisují pomocí špičatých závorek, kde <doc> značí začátek jednotky, </doc> její konec a <doc /> její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.

Dotaz Vyhodnocení
[word="život"][word="\."]</doc> výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu
<doc> [lemma="kdepak"] výskyty lemmatu kdepak na začátku (libovolného) dokumentu
[word="jak"][]*[word="tak"] within <s /> výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty 1)

Struktura korpusů mluvené češtiny

V korpusech mluvené češtiny je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:

  • doc - dokument; v případě dialogických mluvených korpusů řady ORAL (ORAL2006 a ORAL2008) se jedná o jednu sondu (ucelený rozhovor)
  • sp - mluvčí (speaker), resp. jedna jeho promluva
  • seg - technické (tj. nijak lingvisticky motivované) členění promluv sp na kratší úseky
Dotaz Vyhodnocení
[word="ne"]</doc> výskyty slova ne na konci sondy
<sp> [word="hm"] výskyty slova hm na začátku promluvy

Pozice jako strukturní jednotka

Z obecného pohledu je další strukturní jednotkou i pozice, tj. nejmenší jednotka, na niž je každý text v průběhu tokenizace rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o pozičních atributech.

Strukturní atributy (atributy strukturních jednotek)

Ke každé strukturní jednotce se váže jeden nebo víc strukturních atributů. Všechny jednotky mají standardně atribut id, který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). Např. <doc> Sport 5. 4. 2012 v korpusu SYN2015 má následující hodnotu atributu id: id="sp120405", analogicky <opus> Lidové noviny, 28. 4. 2008 v korpusu SYN2010id="ln080428". Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. <text> nebo <s>), každá z nich má přitom svůj jednoznačný identifikátor.

Strukturní atributy u korpusů řady SYN

Strukturní atributy korpusu SYN2015 a novějších

Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>) a dále na odstavce <p> a věty <s>. Většina metadat je vázána na atributy <doc> a <text>. Pro strukturu <doc> jsou to především tyto atributy (viz dokumentace k SYN2015):

  • title – název dokumentu nebo periodika
  • author – autor dokumentu
  • issue – vydání (u periodik)
  • publisher – vydavatel
  • pubplace – místo vydání
  • pubyear – rok vydání
  • translator – překladatel
  • srclang – zdrojový jazyk
  • txtype_group – skupina textových typů
  • txtype – textový typ
  • genre_group – skupina oborů/témat
  • genre – žánr/oblast
  • medium – médium dokumentu
  • periodicity – periodicita
  • audience – cílový adresát (obecný/dětský čtenář)
  • id – jednoznačný identifikátor

Pro jednotku <text> je u publicistických textů k dispozici informace o rubrice v následujících atributech:

  • section – generovaný typ rubriky (u vybraných periodik)
  • section_orig – původní název rubriky (u vybraných periodik)

Strukturní atributy korpusů z let 2005 až 2013

Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>. Základními strukturními atributy v korpusech psané češtiny jsou:

  • autor - autor/autoři opusu, příp. informace, že je autor nezjistitelný
  • nazev - název opusu (hlavní titul)
  • nakladatel - organizace, která dílo vydala
  • mistovyd - místo vydání
  • rokvyd - rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla)
  • isbnissn - identifikátor ISBN, příp. ISSN
  • preklad - překladatel díla (nejedná-li se o původně české dílo)
  • srclang - zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="")
  • txtype_group - makroskupina textových typů: beletrie, odborná, publicistika
  • txtype - typ textu (blíže určený)
  • genre - žánr (text vymezený na základě pojednávaného tématu)
  • med - médium (původní způsob přenosu textu)
  • syn - atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází

Strukturní atributy korpusu SYN2000

V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>:

  • opus - identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id)
  • txtype - typ textu
  • temp - rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd)

Na základě jednoznačného identifikátoru doc.opus je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do nereferenčního korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem (tedy na úrovni korpusu SYN2010).

Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.

Dotaz Vyhodnocení
[word="ale"] within <opus autor="Topol, Filip" /> všechny výskyty slova ale z děl Filipa Topola
[word="moc"] within <opus txtype="(PUB)|(SCI)" /> všechny výskyty slova moc v opusech označených jako publicistika a vědeckonaučná literatura

Strukturní atributy mluvených korpusů

Některé atributy připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).

Atributy společné všem jednotlivým korpusům řady ORAL

Struktura Atribut Popis Možné hodnoty
doc id jednoznačný identifikátor sondy <řetězec čísel a velkých písmen>
temp rok nahrání sondy např. 2008
pocet počet mluvčích v sondě <číslo>
promluva typ promluvy N (neformální)
sp num číselné označení mluvčího v rámci sondy (doc) od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y
pohlavi pohlaví mluvčího {M (muž), Z (žena)} nebo Y
vek věková kategorie mluvčího {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
veknum věk mluvčího (číselně) <číslo>
vzdelani vzdělání mluvčího (hrubé rozlišení) {A(altus, vysokoškolské včetně pouze započatého),B(basis, základní a středoškolské)} nebo Y
vzdelanityp vzdělání mluvčího (jemnější rozlišení) {SŠ,VŠ,ZŠ} nebo Y
oblast nářeční oblast, kde se mluvčí narodil {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y

Atributy dostupné pouze v korpusu ORAL2013

Struktura Atribut Popis Možné hodnoty
doc vztah vztah mezi mluvčími {přátelskost,známost}
situace typ situace, v níž byla nahrávka pořízena {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}
sp oznacenishody jednoznačné označení mluvčího v rámci celého korpusu <řetězec malých písmen>
prekryv nachází se tato promluva daného mluvčího v překryvu? {ano,ne}

Atributy dostupné ve spojeném korpusu ORAL: údaje k nahrávce

Strukturní atribut Příklad Vysvětlení Možné hodnoty Poznámka
doc.id 06H080N identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) <řetězec čísel a velkých písmen>
doc.month březen měsíc pořízení nahrávky <řetězec malých písmen>
doc.speakers 5 počet všech mluvčích v nahrávce <číslo>
doc.formality neformální neformální situace {neformální, formální} v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (N pro neformální, F pro formální)
doc.preparedness nepřipravená označení, zda byl rozhovor předem připraven, či ne {připravená, nepřipravená} souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak
doc.audio ne informace, zda je k transkriptu dostupný zvuk {ano, ne} nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano
doc.year 2006 rok pořízení nahrávky
doc.location Praha místo pořízení nahrávky
doc. relationship přátelský vztah mluvčích v nahrávce {přátelský, znají se, neznají se} pod označení přátelský jsou zařazeny i rodinné vztahy
doc.situation návštěva označení, za jaké situace k hovoru došlo {návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě} a další
doc.tokens 9008 počet všech tokenů v nahrávce
doc.oral 2006 označuje korpus, z něhož nahrávka pochází {2006, 2008, 2013, Z}
doc.number 2 počet mluvčích v nahrávce

Atributy dostupné ve spojeném korpusu ORAL: údaje k mluvčímu

Strukturní atribut Příklad Vysvětlení Možné hodnoty
sp.nickname Milena_2633 automaticky přiřazená přezdívka
sp.gender M pohlaví mluvčího {Z (žena), M (muž)} nebo Y
sp.edu_level nejvyšší dosažené vzdělání {SŠ, VŠ, ZŠ} nebo Y
sp.age 54 věk mluvčího
sp.reg_current středomoravská nářeční oblast současného pobytu mluvčího {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
sp.proportion 23 % procentuální zastoupení řeči mluvčího v rámci celé nahrávky
sp.confederate ne informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách {ano, ne}
sp.edu_binary B vzdělání mluvčího (hrubé rozlišení) {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y
sp.age_binary I věk mluvčího (hrubé rozlišení) {I (iunior, mladší: cca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
sp.reg_childhood středomoravská nářeční oblast místa pobytu mluvčího v dětství (do 15 let) {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
sp.occupation kvalifikovaný pracovník ve stavebnictví specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- {kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač} a další
sp.overlap ano značí, zda se promluva daného mluvčího nachází v překryvu {ano, ne}

Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí

Atributy pro korpus ORTOFON (navíc oproti spojenému korpusu ORAL)

Struktura Atribut Příklad Vysvětlení Možné hodnoty
doc generations 1 počet generací mluvčích v nahrávce {1 (vrstevníci),2 (mladší a starší mluvčí v nahrávce)} atd.
genders smíšené {jen ženy, jen muži, smíšené}
sp locsize_childhood město nad 100 tisíc velikost sídla, kde mluvčí žil do 15 let věku {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_longest město nad 100 tisíc velikost sídla, kde mluvčí žil nejdelší dobu {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_current město nad 100 tisíc velikost sídla, kde mluvčí žije v současné době {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
soundfile 5/3/ef2e315f.mp3 číslo a formát nahrávky
id 3784 číselné označení mluvčího v rámci jedné nahrávky (na rozdíl od sp.nickname – označení téhož mluvčího ve všech nahrávkách, ve kterých se vyskytuje)
edu_field chemické obory obor vzdělání {ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost} a další, výběr oborů z předdefinovaného seznamu
occupation sociální pracovník
occupation_category jiný odborný pracovník specifikace zaměstnání podle ČZSO
loc_childhood Praha místo, kde mluvčí žil do 15 let
reg_longest severovýchodočeská nářeční oblast, v níž mluvčí žil nejdéle {česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská} nebo Y
para type šeptem označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem {šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}
pw - - struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) -
overlap - - struktura obaluje pozice řečené v překryvu s jiným mluvčím -
unclear - - struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného -

Atributy pro korpus DIALEKT: údaje k nahrávce

Strukturní atribut Příklad Vysvětlení Možné hodnoty (položky jsou řazeny podle abecedy) Poznámka
doc.id 001-C-SVC-1957-SA identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky
doc.zdroj Ústav Českého národního korpusu zdroj nahrávky {Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}
doc.rok 1957 rok pořízení nahrávky 195X - blíže neurčený rok v padesátých letech
doc.vrstva stará nářeční vrstva {nová, stará}
doc.misto Křečovice místo pořízení nahrávky část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
doc.sidlotyp městská lokalita typ sídla {městská lokalita, venkovská lokalita}
doc.sidlovelikost nad 100 tis. místo pořízení nahrávky - velikost sídla {méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}
doc.stat Česká republika místo pořízení nahrávky - stát {Česká republika, Polsko}
doc.region Čechy místo pořízení nahrávky - region {Čechy, Morava, Slezsko}
doc.noblast středočeská místo pořízení nahrávky - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.npodskupina jižní (slovácká) místo pořízení nahrávky - nářeční podskupina {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.núsek západní (opavský) místo pořízení nahrávky - nářeční úsek {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.ntyp doudlebský místo pořízení nahrávky - nářeční typ {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.okres Domažlice místo pořízení nahrávky - okres
doc.promluvatyp monolog typ promluvy podle dialogičnosti {dialog, monolog, převážně dialog, převážně monolog}
doc.tema Vánoce téma promluvy
doc.pocetml 2 celkový počet mluvčích v nahrávce
doc.explorator ano přítomnost exploratora v nahrávce {ano, ne}

Atributy pro korpus DIALEKT: údaje k mluvčímu

Strukturní atribut Příklad Vysvětlení Možné hodnoty (položky jsou řazeny podle abecedy) Poznámka
sp.id 2533 jedinečný kód mluvčího
sp.prezdivka Dalibor_208 automaticky vygenerovaná přezdívka, ze které je patrné pohlaví: přezdívky pro muže končí souhláskou, pro ženy samohláskou)
sp.explorator ano mluvčí je/není explorátor {ano, ne}
sp.pohlavi M: muž pohlaví mluvčího {M: muž, Z: žena}
sp.rok 1877 rok narození mluvčího
sp.veknum 85 věk mluvčího v době pořízení nahrávky 5X - věk mezi padesáti a šedesáti lety
sp.vek V: nad 35 let věková kategorie užívaná v mluvených korpusech {I: do 35 let, V: nad 35 let}
sp.vzdelanitypI A: vysokoškolské vzdělání - typ užívaný ve všech mluvených korpusech {A: vysokoškolské, B: základní či střední}
sp.vzdelanitypII vzdělání - typ užívaný v mluvených korpusech řady ORAL {SOU, SŠ, VŠ, ZŠ}
sp.profese cestář nejdelší zaměstnání mluvčího
sp.mistonej Stachy místo nejdelšího pobytu mluvčího část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
sp.statnej Česká republika nejdelší pobyt mluvčího - stát {Česká republika, Polsko}
sp.regionnej Čechy nejdelší pobyt mluvčího - region {Čechy, Morava, Slezsko}
sp.noblastnej českomoravská nejdelší pobyt mluvčího - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.npodskupinanej severní (valašská) nejdelší pobyt mluvčího - nářeční podskupina {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.nuseknej východní (ostravský) nejdelší pobyt mluvčího - nářeční úsek {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.ntypnej jemnický nejdelší pobyt mluvčího - nářeční typ {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.mistodet Zápy místo pobytu mluvčího v dětství (do 15 let) část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
sp.noblastdet východomoravská pobyt mluvčího v dětství (do 15 let) - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál

Strukturní atributy korpusu InterCorp

V korpusech InterCorp nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:

  • doc – dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)
  • div – text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu
  • p – odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce
  • s – věta (sentence); dále je každý odstavec dělen na věty

Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).

Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 6, verze 7, verze 8, verze 9)

Související odkazy

1)
Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.