AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
pojmy:korpus [2013/09/19 09:46] vaclavcvrcekpojmy:korpus [2013/09/19 09:58] – Schvaleno pro 1. verzi vaclavcvrcek
Řádek 7: Řádek 7:
 ===== Korpus a jeho využití ===== ===== Korpus a jeho využití =====
  
-Korpusy jsou budovány s cílem, aby sloužily jako záznam a pokud možno co nejobjektivnější model jazykové empirie. Ta je přirozeně zdrojem dat pro lingvistický výzkum, dnes se ovšem korpusy využívají i v jiných oblastech, které využívají texty jako zdroje poznání reality (historie, sociologie, psychologie apod.).+Korpusy jsou budovány s cílem sloužit jako záznam a pokud možno co nejobjektivnější model jazykové empirie. Ta je přirozeně zdrojem dat pro lingvistický výzkum, dnes se ovšem korpusy využívají i v jiných oblastech, které využívají texty jako zdroje poznání reality (historie, sociologie, psychologie apod.).
  
 Vzhledem k rozsahu dnešních korpusů, které nezřídka přesahují hranici sto milionů slov, je nutné na jejich vytěžování používat speciální nástroje, [[pojmy:korpusovy_manazer|korpusové manažery]]. Ty většinou umožňují vedle hledání a prohlížení výsledků také filtrování a jednoduché statistické vyhodnocování nalezených dat. Vzhledem k rozsahu dnešních korpusů, které nezřídka přesahují hranici sto milionů slov, je nutné na jejich vytěžování používat speciální nástroje, [[pojmy:korpusovy_manazer|korpusové manažery]]. Ty většinou umožňují vedle hledání a prohlížení výsledků také filtrování a jednoduché statistické vyhodnocování nalezených dat.
  
-Rozsah ovšem není jediným kritériem kvality korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzroku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je stále spousta nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit.+Rozsah ovšem není jediným kritériem kvality a spolehlivosti korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzorku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je mnoho nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit.
  
-Za účelem snazšího využití korpusů, jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány.+Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány.