Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:struktura_korpusu [2013/08/22 16:39] – alzbetavitkova | pojmy:struktura_korpusu [2013/09/26 23:49] – [Struktura korpusu] pavelvondricka |
---|
[[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). | [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). |
| |
Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty. | Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty [FIXME jaké varianty? není to pak všechno prostě nějaká forma SGML?]. |
| |
===== Vertikála - korpusy psaného jazyka ===== | ===== Vertikála - korpusy psaného jazyka ===== |
===== Vertikála - korpusy mluveného jazyka ===== | ===== Vertikála - korpusy mluveného jazyka ===== |
| |
Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu ORAL2008: | Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu [[cnk:oral2008|ORAL2008]]: |
| |
<code> | <code> |
</code> | </code> |
| |
Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na promluvy (označené pomocí ''<doc>''). Namísto vět sleduje vnitřní členění střídání promluv mezi mluvčími. Značka <sp> tedy vyjadřuje fakt, že došlo ke změně mluvčího (speakera). Zároveň jsou součástí této značky i informace o mluvčím (pořadové číslo v promluvě, pohlaví, věk, vzdělání, nářeční oblast apod.). | Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na promluvy (označené pomocí ''<doc>''). Namísto vět sleduje vnitřní členění střídání promluv mezi mluvčími. Značka [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|<sp>]] (speaker) tedy vyjadřuje fakt, že došlo ke změně mluvčího. Zároveň jsou součástí této značky i informace o mluvčím (pořadové číslo v promluvě, pohlaví, věk, vzdělání, nářeční oblast apod.). |
| |
Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word). | Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word). |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 49%> | <WRAP round box 49%> |
[[pojmy:atributy_pozicni|Poziční atributy]] • [[pojmy:atributy_strukturni|Strukturní atributy]] | [[pojmy:atributy_pozicni|Poziční atributy]] • [[pojmy:atributy_strukturni|Strukturní atributy]] |
</WRAP> | </WRAP> |