Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
pojmy:struktura_korpusu [2013/08/22 16:39] – alzbetavitkova | pojmy:struktura_korpusu [2013/10/02 16:11] – [Vertikála - korpusy psaného jazyka] olgarichterova | ||
---|---|---|---|
Řádek 3: | Řádek 3: | ||
[[pojmy: | [[pojmy: | ||
- | Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp> | + | Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát [[wp> |
===== Vertikála - korpusy psaného jazyka ===== | ===== Vertikála - korpusy psaného jazyka ===== | ||
Řádek 79: | Řádek 79: | ||
. . Z: | . . Z: | ||
</ | </ | ||
+ | |||
+ | Všimněme si značky, kterou automatický tagger přiřadil tvaru // | ||
Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny: | Jednou ze zásad XML, z něhož je vertikála odvozena, je, že všechny struktury musí mít otevírací i ukončovací značku. Proto jsou nakonec všechny otevřené struktury uzavřeny: | ||
Řádek 90: | Řádek 92: | ||
===== Vertikála - korpusy mluveného jazyka ===== | ===== Vertikála - korpusy mluveného jazyka ===== | ||
- | Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu ORAL2008: | + | Analogicky vypadá struktura korpusů mluveného jazyka, viz ukázka z korpusu |
< | < | ||
Řádek 118: | Řádek 120: | ||
</ | </ | ||
- | Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na promluvy (označené pomocí ''< | + | Základní odlišností je fakt, že mluvený korpus není členěn na opusy, ale na promluvy (označené pomocí ''< |
Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word). | Korpusy mluveného jazyka většinou nebývají lemmatizovány a tagovány, proto je ve zdrojovém textu pouze jeden sloupec (pro atribut word). | ||
Řádek 193: | Řádek 195: | ||
==== Související odkazy ==== | ==== Související odkazy ==== | ||
+ | |||
<WRAP round box 49%> | <WRAP round box 49%> | ||
[[pojmy: | [[pojmy: | ||
</ | </ |