Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:struktura_korpusu [2013/09/13 15:42] – Schvaleno pro 1. verzi vaclavcvrcek | pojmy:struktura_korpusu [2013/10/02 14:32] – olgarichterova |
---|
[[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). | [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). |
| |
Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty. | Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty [FIXME jaké varianty? není to pak všechno prostě nějaká forma SGML?]. |
| |
===== Vertikála - korpusy psaného jazyka ===== | ===== Vertikála - korpusy psaného jazyka ===== |
<code> | <code> |
Když když J,-------------- | Když když J,-------------- |
školení školení NNNS4-----A----- | školení školení NNNS4((zde je v tagování chyba, ve skutečnosti se jedná o nominativ, ne o akuzativ))-----A----- |
skončilo skončit VpNS---3R-AA---P | skončilo skončit VpNS---3R-AA---P |
, , Z:-------------- | , , Z:-------------- |