Nastavení

Strukturní jednotky a atributy

Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí metadat) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní strukturace. Každý korpus se tak člení na různé strukturní jednotky a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více strukturních atributů.

Strukturní jednotky

Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi SYN2000, prvním velkým korpusem ČNK, a ostatními korpusy řady SYN).

Struktura korpusů psané češtiny

V psaných korpusech řady SYN nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:

  • opus - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech SYN2005SYN2013PUB
  • doc - různá platnost v různých korpusech:
    1. text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - v korpusu SYN2000; v korpusu SYN2015 a novějších
    2. v korpusech s jednotkou <opus>: dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek)
  • text - v korpusech s hierarchicky nejvyšší jednotkou <doc>: text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.)
  • p - odstavec
  • s - věta (sentence); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty

Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).

Schematické znázornění hierarchie strukturních jednotek v korpusech řady SYN:

Strukturní jednotka v SYN2000 Strukturní jednotka v korpusech SYN2005 až SYN2013PUB Strukturní jednotka v SYN2015
<doc> <opus> <doc>
<doc> <text>
<p>
<s> <s> <s>

Strukturní atributy se obvykle zapisují pomocí špičatých závorek, kde <doc> značí začátek jednotky, </doc> její konec a <doc /> její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.

Dotaz Vyhodnocení
[word="život"][word="\."]</doc> výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu
<doc> [lemma="kdepak"] výskyty lemmatu kdepak na začátku (libovolného) dokumentu
[word="jak"][]*[word="tak"] within <s /> výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty 1)

Struktura korpusů mluvené češtiny

V korpusech mluvené češtiny je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:

  • doc - dokument; v případě dialogických mluvených korpusů řady ORAL (ORAL2006 a ORAL2008) se jedná o jednu sondu (ucelený rozhovor)
  • sp - mluvčí (speaker), resp. jedna jeho promluva
  • seg - technické (tj. nijak lingvisticky motivované) členění promluv sp na kratší úseky
Dotaz Vyhodnocení
[word="ne"]</doc> výskyty slova ne na konci sondy
<sp> [word="hm"] výskyty slova hm na začátku promluvy

Pozice jako strukturní jednotka

Z obecného pohledu je další strukturní jednotkou i pozice, tj. nejmenší jednotka, na niž je každý text v průběhu tokenizace rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o pozičních atributech.

Strukturní atributy (atributy strukturních jednotek)

Ke každé strukturní jednotce se váže jeden nebo víc strukturních atributů. Všechny jednotky mají standardně atribut id, který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). Např. <doc> Sport 5. 4. 2012 v korpusu SYN2015 má následující hodnotu atributu id: id="sp120405", analogicky <opus> Lidové noviny, 28. 4. 2008 v korpusu SYN2010id="ln080428". Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. <text> nebo <s>), každá z nich má přitom svůj jednoznačný identifikátor.

Strukturní atributy u korpusů řady SYN

Strukturní atributy korpusu SYN2015 a novějších

Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>) a dále na odstavce <p> a věty <s>. Většina metadat je vázána na atributy <doc> a <text>. Pro strukturu <doc> jsou to především tyto atributy (viz dokumentace k SYN2015):

  • title – název dokumentu nebo periodika
  • author – autor dokumentu
  • issue – vydání (u periodik)
  • publisher – vydavatel
  • pubplace – místo vydání
  • pubyear – rok vydání
  • translator – překladatel
  • srclang – zdrojový jazyk
  • txtype_group – skupina textových typů
  • txtype – textový typ
  • genre_group – skupina oborů/témat
  • genre – žánr/oblast
  • medium – médium dokumentu
  • periodicity – periodicita
  • audience – cílový adresát (obecný/dětský čtenář)
  • id – jednoznačný identifikátor

Pro jednotku <text> je u publicistických textů k dispozici informace o rubrice v následujících atributech:

  • section – generovaný typ rubriky (u vybraných periodik)
  • section_orig – původní název rubriky (u vybraných periodik)

Strukturní atributy korpusů z let 2005 až 2013

Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>. Základními strukturními atributy v korpusech psané češtiny jsou:

  • autor - autor/autoři opusu, příp. informace, že je autor nezjistitelný
  • nazev - název opusu (hlavní titul)
  • nakladatel - organizace, která dílo vydala
  • mistovyd - místo vydání
  • rokvyd - rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla)
  • isbnissn - identifikátor ISBN, příp. ISSN
  • preklad - překladatel díla (nejedná-li se o původně české dílo)
  • srclang - zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="")
  • txtype_group - makroskupina textových typů: beletrie, odborná, publicistika
  • txtype - typ textu (blíže určený)
  • genre - žánr (text vymezený na základě pojednávaného tématu)
  • med - médium (původní způsob přenosu textu)
  • syn - atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází

Strukturní atributy korpusu SYN2000

V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>:

  • opus - identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id)
  • txtype - typ textu
  • temp - rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd)

Na základě jednoznačného identifikátoru doc.opus je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do nereferenčního korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem (tedy na úrovni korpusu SYN2010).

Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.

Dotaz Vyhodnocení
[word="ale"] within <opus autor="Topol, Filip" /> všechny výskyty slova ale z děl Filipa Topola
[word="moc"] within <opus txtype="(PUB)|(SCI)" /> všechny výskyty slova moc v opusech označených jako publicistika a vědeckonaučná literatura

Strukturní atributy korpusů řady ORAL

Některé atributy připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).

Atributy společné všem korpusům řady ORAL:

Struktura Atribut Popis Možné hodnoty
doc id jednoznačný identifikátor sondy <řetězec čísel a velkých písmen>
temp rok nahrání sondy např. 2008
pocet počet mluvčích v sondě <číslo>
promluva typ promluvy N (neformální)
sp num číselné označení mluvčího v rámci sondy (doc) od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y
pohlavi pohlaví mluvčího {M(muž),Z(žena)} nebo Y
vek věková kategorie mluvčího {I(iunior, mladší: ca 20–35 let),V(vetus, starší: 35 let a více)} nebo Y
veknum věk mluvčího (číselně) <číslo>
vzdelani vzdělání mluvčího (hrubé rozlišení) {A(altus, vysokoškolské včetně pouze započatého),B(basis, základní a středoškolské)} nebo Y
vzdelanityp vzdělání mluvčího (jemnější rozlišení) {SŠ,VŠ,ZŠ} nebo Y
oblast nářeční oblast, kde se mluvčí narodil {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y

Atributy dostupné pouze v korpusu ORAL2013:

Struktura Atribut Popis Možné hodnoty
doc vztah vztah mezi mluvčími {přátelskost,známost}
situace typ situace, v níž byla nahrávka pořízena {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}
sp oznacenishody jednoznačné označení mluvčího v rámci celého korpusu <řetězec malých písmen>
prekryv nachází se tato promluva daného mluvčího v překryvu? {ano,ne}

Strukturní atributy korpusu InterCorp

V korpusech InterCorp nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:

  • doc – dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)
  • div – text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu
  • p – odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce
  • s – věta (sentence); dále je každý odstavec dělen na věty

Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).

Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 6, verze 7, verze 8, verze 9)

Související odkazy

1)
Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.