====== Struktura korpusu ====== [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i různé formy jazyka [[wp>Standard_Generalized_Markup_Language|SGML]]. ===== Vertikála – korpusy psaného jazyka ===== Vertikála je interní formát sloužící pro zachycení struktury korpusu a textů v něm (spolu s jejich anotací). V korpusu [[cnk:syn2010|SYN2010]] má např. následující podobu (jedná se o ukázku z díla A. C. Doyla Příběhy Sherlocka Holmese, konkrétně o větu //Když školení skončilo, přidělili mne k pátému northumberlandskému střeleckému pluku jako pomocného chirurga.//, která se nachází na začátku celé knihy):




...

Když	když	J,--------------
školení	školení	NNNS4-----A-----
skončilo	skončit	VpNS---3R-AA---P
,	,	Z:--------------
přidělili	přidělit	VpMP---3R-AA---P
mne	já	PP-S4--1--------
k	k	RR--3-----------
Pátému	Pátý	NNMS3-----A-----
northumberlandskému	northumberlandský	AAIS3----1A-----
střeleckému	střelecký	AAIS3----1A-----
pluku	pluk	NNIS3-----A-----
jako	jako	J,--------------
pomocného	pomocný	AAMS4----1A-----
chirurga	chirurg	NNMS4-----A-----
.	.	Z:--------------

...

...


...

Každý text (nazývaný **opus**) začíná specifickou značkou '''', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]).

Zde je poznačeno, kdo je autorem (je-li to známo), jaký je název textu, nakladatel, rok vydání, ISBN/ISSN, překladatel (není vyplněno u českých originálů), [[pojmy:srclang|zdrojový jazyk]] (taktéž) a stylové a žánrové zařazení textu (atributy [[pojmy:txtype|txtype_group]], [[pojmy:txtype|txtype]] a [[pojmy:genre|genre]]). Dále je v hlavičce zachyceno, jaké bylo [[pojmy:medium|médium]] zdrojového textu (např. B = kniha) a jaký je jeho jednoznačný identifikátor (id). Pokud se text dělí na dokumenty (např. různé povídky) a na věty, následuje řádek se specifikací této strukturní jednotky:

V drtivé většině případů má strukturní značka '''' a '''' pouze jednoznačný identifikátor (''id''), který se ovšem vztahuje pouze k hierarchicky nadřazené jednotce, tj. k opusu. Dokumentů a vět s ''id="1"'' je tak v korpusu celá řada. Samotný text je uspořádán do sloupců. První sloupec představuje originální text (atribut //[[pojmy:word|word]]//), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]]). Když když J,-------------- školení školení NNNS4-----A----- skončilo skončit VpNS---3R-AA---P , , Z:-------------- přidělili přidělit VpMP---3R-AA---P mne já PP-S4--1-------- k k RR--3----------- Pátému Pátý NNMS3-----A----- northumberlandskému northumberlandský AAIS3----1A----- střeleckému střelecký AAIS3----1A----- pluku pluk NNIS3-----A----- jako jako J,-------------- pomocného pomocný AAMS4----1A----- chirurga chirurg NNMS4-----A----- . . Z:-------------- Všimněme si značky, kterou automatický tagger přiřadil tvaru //školení//: ''NNNS4.*''. Číslice 4 reprezentuje 4. pád, což znamená, že zde je v tagování chyba, ve skutečnosti se nejedná o realizaci akuzativní, ale nominativní. Chybovost automatického značkování dosahovala v SYN2010 cca 4,5 % až 5 %. V nejnovějších korpusech SYN (SYN2020 a pozdější) je chybovost cca 2,5 %, a to i se zahrnutím nové slovesné značky [[pojmy:verbtag|verbtag]] do výpočtu. Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny: ===== Vertikála – korpusy mluveného jazyka ===== Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu [[cnk:oral2008|ORAL2008]]: ... jo , dyk já se snažim , dyk já nechávám všechno na koleji v rybičce taky . ... Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na sondy (označené pomocí ''''), tj. souvislé rozhovory v rámci jedné komunikační situace. Namísto vět sleduje vnitřní členění střídání promluv mezi mluvčími. Značka [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|]] (speaker) tedy vyjadřuje fakt, že došlo ke změně mluvčího. Zároveň jsou součástí této značky i informace o mluvčím (pořadové číslo v promluvě, pohlaví, věk, vzdělání, nářeční oblast apod.). Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word). ===== Struktura v XML ===== Spíše pro ilustraci uvádíme příklad v XML notaci. Naděžda Mandelštamová DVĚ KNIHY VZPOMÍNEK K okenní tabulce přilnula ženská tvář a po skle začaly pomalu stékat slzy , jako kdyby je žena měla pořád na krajíčku . . . . Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na [[wp>Document_type_definition|DTD]] (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci). Jeden dokument (označený XML elementem ''doc'') odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (''div''; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (''p'') a věty (''s''). Každý z těchto elementů začíná otevíracím tagem (např. pro věty ''~~'') a je uzavřen tagem uzavíracím (''~~''), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element ''div'' obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu. Všem dosud zmíněným elementům je společný atribut ''id'', identifikátor jednoznačně určující daný element v korpusu. Dalším elementem je ''w'', označující každou jednotlivou pozici vzniklou [[pojmy:token|tokenizací]]. Jeho atributy jsou [[pojmy:lemma|lemma]] a [[pojmy:tag|morfologická značka]] jako výsledek (automatické) lemmatizace a tagování. Tyto pozice jsou základní jednotky pro vyhledávání v korpusu odpovídající [[pojmy:token|tokenům]]: samostatnou pozici v takto označeném textu dokumentu tvoří každý jednotlivý výskyt slovního tvaru, čísla nebo interpunkčního znaménka, které bylo při tokenizaci osamostatněno. Každý w-element je svým umístěním zařazen do konkrétní věty, odstavce a dokumentu. Elementem ''i'' je ohraničena část textu, která byla zapsána kurzívou, a element ''D'' označuje místo, kde jednotlivé w-elementy v původním textu nebyly odděleny mezerou, což umožňuje jeho zpětnou rekonstrukci. Za povšimnutí stojí také fakt, že element ''D'' je při svém otevření vždy vzápětí uzavřen, což je signalizováno tagem ''''. --- //Michal Křen, Václav Cvrček// ==== Související odkazy ==== [[pojmy:atributy_pozicni|Poziční atributy]] • [[pojmy:atributy_strukturni|Strukturní atributy]]