AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:struktura_korpusu [2013/10/02 14:32] Olga Richterovapojmy:struktura_korpusu [2023/08/02 17:12] (aktuální) Jan Křivan
Řádek 3: Řádek 3:
 [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.).
  
-Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty [FIXME jaké varianty? není to pak všechno prostě nějaká forma SGML?].+Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i různé formy jazyka [[wp>Standard_Generalized_Markup_Language|SGML]].
  
-===== Vertikála korpusy psaného jazyka =====+===== Vertikála – korpusy psaného jazyka =====
  
 Vertikála je interní formát sloužící pro zachycení struktury korpusu a textů v něm (spolu s jejich anotací). V korpusu [[cnk:syn2010|SYN2010]] má např. následující podobu (jedná se o ukázku z díla A. C. Doyla Příběhy Sherlocka Holmese, konkrétně o větu //Když školení skončilo, přidělili mne k pátému northumberlandskému střeleckému pluku jako pomocného chirurga.//, která se nachází na začátku celé knihy): Vertikála je interní formát sloužící pro zachycení struktury korpusu a textů v něm (spolu s jejich anotací). V korpusu [[cnk:syn2010|SYN2010]] má např. následující podobu (jedná se o ukázku z díla A. C. Doyla Příběhy Sherlocka Holmese, konkrétně o větu //Když školení skončilo, přidělili mne k pátému northumberlandskému střeleckému pluku jako pomocného chirurga.//, která se nachází na začátku celé knihy):
Řádek 64: Řádek 64:
 <code> <code>
 Když když J,-------------- Když když J,--------------
-školení školení NNNS4((zde je v tagování chyba, ve skutečnosti se jedná o nominativ, ne o akuzativ))-----A-----+školení školení NNNS4-----A-----
 skončilo skončit VpNS---3R-AA---P skončilo skončit VpNS---3R-AA---P
 , , Z:-------------- , , Z:--------------
Řádek 79: Řádek 79:
 . . Z:-------------- . . Z:--------------
 </code> </code>
 +
 +Všimněme si značky, kterou automatický tagger přiřadil tvaru //školení//: ''NNNS4.*''. Číslice 4 reprezentuje 4. pád, což znamená, že zde je v tagování chyba, ve skutečnosti se nejedná o realizaci akuzativní, ale nominativní. Chybovost automatického značkování dosahovala v SYN2010 cca 4,5 % až 5 %. V nejnovějších korpusech SYN (SYN2020 a pozdější) je chybovost cca 2,5 %, a to i se zahrnutím nové slovesné značky [[pojmy:verbtag|verbtag]] do výpočtu.
  
 Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny: Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny:
Řádek 88: Řádek 90:
 </code> </code>
  
-===== Vertikála korpusy mluveného jazyka =====+===== Vertikála – korpusy mluveného jazyka =====
  
 Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu [[cnk:oral2008|ORAL2008]]: Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu [[cnk:oral2008|ORAL2008]]:
Řádek 118: Řádek 120:
 </code> </code>
  
-Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na promluvy (označené pomocí ''<doc>''). Namísto vět sleduje vnitřní členění střídání promluv mezi mluvčími. Značka [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|<sp>]] (speaker) tedy vyjadřuje fakt, že došlo ke změně mluvčího. Zároveň jsou součástí této značky i informace o mluvčím (pořadové číslo v promluvě, pohlaví, věk, vzdělání, nářeční oblast apod.).+Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na sondy (označené pomocí ''<doc>''), tj. souvislé rozhovory v rámci jedné komunikační situace. Namísto vět sleduje vnitřní členění střídání promluv mezi mluvčími. Značka [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|<sp>]] (speaker) tedy vyjadřuje fakt, že došlo ke změně mluvčího. Zároveň jsou součástí této značky i informace o mluvčím (pořadové číslo v promluvě, pohlaví, věk, vzdělání, nářeční oblast apod.).
  
 Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word). Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word).
Řádek 182: Řádek 184:
 </code> </code>
  
-Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na DTD (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci).+Příklad ukazuje počáteční část jednoho ze souborů korpusu InterCorp odpovídajícího české verzi knihy N. J. Mandelštamové //Dvě knihy vzpomínek// ve formátu XML. Na druhém řádku souboru najdeme odkaz na [[wp>Document_type_definition|DTD]] (Document Type Definition) s definicí struktury celého dokumentu. Tato definice je však pouze formální (na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci).
  
 Jeden dokument (označený XML elementem ''doc'') odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (''div''; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (''p'') a věty (''s''). Každý z těchto elementů začíná otevíracím tagem (např. pro věty ''<s ...>'') a je uzavřen tagem uzavíracím (''</s>''), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element ''div'' obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu. Všem dosud zmíněným elementům je společný atribut ''id'', identifikátor jednoznačně určující daný element v korpusu. Jeden dokument (označený XML elementem ''doc'') odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (''div''; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (''p'') a věty (''s''). Každý z těchto elementů začíná otevíracím tagem (např. pro věty ''<s ...>'') a je uzavřen tagem uzavíracím (''</s>''), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element ''div'' obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu. Všem dosud zmíněným elementům je společný atribut ''id'', identifikátor jednoznačně určující daný element v korpusu.
Řádek 191: Řádek 193:
  
  --- //Michal Křen, Václav Cvrček//  --- //Michal Křen, Václav Cvrček//
- 
 ==== Související odkazy ==== ==== Související odkazy ====