AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:struktura_korpusu [2013/08/22 16:39] alzbetavitkovapojmy:struktura_korpusu [2013/10/02 14:32] olgarichterova
Řádek 3: Řádek 3:
 [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.). [[pojmy:korpus|Korpus]] - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají **strukturní jednotky** (jako [[pojmy:opus|opus]], [[pojmy:doc|dokument]], [[pojmy:s|věta]]), k nimž se vážou různé [[pojmy:atributy_strukturni|strukturní atributy]] (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. [[pojmy:atributy_pozicni|pozičními atributy]], jako třeba [[pojmy:lemma|lemma]], [[pojmy:tag|tag]] apod.).
  
-Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty.+Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp>xml|XML]], často se ovšem používají i jeho zjednodušené varianty [FIXME jaké varianty? není to pak všechno prostě nějaká forma SGML?].
  
 ===== Vertikála - korpusy psaného jazyka ===== ===== Vertikála - korpusy psaného jazyka =====
Řádek 64: Řádek 64:
 <code> <code>
 Když když J,-------------- Když když J,--------------
-školení školení NNNS4-----A-----+školení školení NNNS4((zde je v tagování chyba, ve skutečnosti se jedná o nominativ, ne o akuzativ))-----A-----
 skončilo skončit VpNS---3R-AA---P skončilo skončit VpNS---3R-AA---P
 , , Z:-------------- , , Z:--------------
Řádek 90: Řádek 90:
 ===== Vertikála - korpusy mluveného jazyka ===== ===== Vertikála - korpusy mluveného jazyka =====
  
-Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu ORAL2008:+Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu [[cnk:oral2008|ORAL2008]]:
  
 <code> <code>
Řádek 118: Řádek 118:
 </code> </code>
  
-Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na promluvy (označené pomocí ''<doc>''). Namísto vět sleduje vnitřní členění střídání promluv mezi mluvčími. Značka <sp> tedy vyjadřuje fakt, že došlo ke změně mluvčího (speakera). Zároveň jsou součástí této značky i informace o mluvčím (pořadové číslo v promluvě, pohlaví, věk, vzdělání, nářeční oblast apod.).+Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na promluvy (označené pomocí ''<doc>''). Namísto vět sleduje vnitřní členění střídání promluv mezi mluvčími. Značka [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|<sp>]] (speaker) tedy vyjadřuje fakt, že došlo ke změně mluvčího. Zároveň jsou součástí této značky i informace o mluvčím (pořadové číslo v promluvě, pohlaví, věk, vzdělání, nářeční oblast apod.).
  
 Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word). Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word).
Řádek 193: Řádek 193:
  
 ==== Související odkazy ==== ==== Související odkazy ====
 +
 <WRAP round box 49%> <WRAP round box 49%>
 [[pojmy:atributy_pozicni|Poziční atributy]] • [[pojmy:atributy_strukturni|Strukturní atributy]] [[pojmy:atributy_pozicni|Poziční atributy]] • [[pojmy:atributy_strukturni|Strukturní atributy]]
 </WRAP> </WRAP>