Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| pojmy:syntakticka_komplexita [2024/10/01 09:54] – [Prázdné hodnoty] alexandrrosen | pojmy:syntakticka_komplexita [2025/01/29 17:49] (aktuální) – [Míry pro věty] alexandrrosen | ||
|---|---|---|---|
| Řádek 3: | Řádek 3: | ||
| Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. | Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. | ||
| - | Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[cs:pojmy: | + | Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[pojmy: |
| ===== Míry pro věty ===== | ===== Míry pro věty ===== | ||
| - | Viz též níže [[https:// | + | Viz též níže [[https:// |
| * **maxNPLength**: | * **maxNPLength**: | ||
| * Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
| - | * Definice jmenné fráze viz níže [[https:// | + | * Definice jmenné fráze viz níže [[https:// |
| - | * **maxNPDepth**: | + | * **maxNPDepth**: |
| * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0. | * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0. | ||
| * Funkční slova (např. determinátory nebo předložky) představují další úroveň zanoření. | * Funkční slova (např. determinátory nebo předložky) představují další úroveň zanoření. | ||
| * Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
| * Koordinace nepředstavuje další úroveň zanoření. | * Koordinace nepředstavuje další úroveň zanoření. | ||
| - | * Definice jmenné fráze viz níže [[https:// | + | * Definice jmenné fráze viz níže [[https:// |
| * **sLength**: | * **sLength**: | ||
| * Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
| - | * **subRatio**: | + | * **subRatio**: |
| - | * T-jednotka | + | * T-unit je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se považuje za jeden T-unit. |
| - | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' | + | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' |
| * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | ||
| * **maxTreeDepth**: | * **maxTreeDepth**: | ||
| * Pro ničím nerozvitý řídící člen věty je míra rovna 0. | * Pro ničím nerozvitý řídící člen věty je míra rovna 0. | ||
| - | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' | + | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' |
| * Koordinace nepředstavuje další úroveň zanoření. | * Koordinace nepředstavuje další úroveň zanoření. | ||
| * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | ||
| Řádek 109: | Řádek 109: | ||
| * Víceslovné tokeny (např. // | * Víceslovné tokeny (např. // | ||
| - | ==== Související odkazy | + | |
| + | ==== Středníky nerozdělují věty pro textové míry ==== | ||
| + | |||
| + | * Míry komplexity jsou citlivé na hranice vět. K dělení vět se používají standardní pravidla, která se uplatňují v celém InterCorpu, včetně toho pravidla, že středník (;) se považuje za oddělovač vět. Textové míry se ale počítají až po spojení vět rozdělených tímto způsobem. To pomáhá zohlednit možné rozdíly v mírách napříč jazyky nebo typy textů, které vznikají pouze kvůli odlišnému užívání středníků. | ||
| + | |||
| + | ===== Odkazy ===== | ||
| + | |||
| + | Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, | ||
| + | |||
| + | Nádvorníková, | ||
| + | |||
| + | Alexandr Rosen (2024): Lexical and syntactic variability | ||
| + | of languages and text genres – a corpus-based study. [[https:// | ||
| + | |||
| + | [[https:// | ||
| + | |||
| + | Rosen, A. (2024). [[https:// | ||
| - | <WRAP round box 50%> | ||
| - | xxx • xxx | ||
| - | </ | ||