Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:syntakticka_komplexita [2024/10/01 09:49] – [Co se považuje za klauzi] alexandrrosen | pojmy:syntakticka_komplexita [2024/10/18 20:34] (aktuální) – [Odkazy] alexandrrosen | ||
---|---|---|---|
Řádek 3: | Řádek 3: | ||
Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. | Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. | ||
- | Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[cs:pojmy: | + | Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[pojmy: |
===== Míry pro věty ===== | ===== Míry pro věty ===== | ||
Řádek 11: | Řádek 11: | ||
* **maxNPLength**: | * **maxNPLength**: | ||
* Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
- | * Definice jmenné fráze viz níže [[https:// | + | * Definice jmenné fráze viz níže [[https:// |
* **maxNPDepth**: | * **maxNPDepth**: | ||
* Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0. | * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0. | ||
Řádek 17: | Řádek 17: | ||
* Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
* Koordinace nepředstavuje další úroveň zanoření. | * Koordinace nepředstavuje další úroveň zanoření. | ||
- | * Definice jmenné fráze viz níže [[https:// | + | * Definice jmenné fráze viz níže [[https:// |
* **sLength**: | * **sLength**: | ||
* Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
- | * **subRatio**: | + | * **subRatio**: |
- | * T-jednotka | + | * T-unit je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se považuje za jeden T-unit. |
- | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' | + | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' |
* Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | ||
* **maxTreeDepth**: | * **maxTreeDepth**: | ||
* Pro ničím nerozvitý řídící člen věty je míra rovna 0. | * Pro ničím nerozvitý řídící člen věty je míra rovna 0. | ||
- | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' | + | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' |
* Koordinace nepředstavuje další úroveň zanoření. | * Koordinace nepředstavuje další úroveň zanoření. | ||
* Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | ||
Řádek 99: | Řádek 99: | ||
==== Hodnoty jako desetinná čísla ==== | ==== Hodnoty jako desetinná čísla ==== | ||
- | U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2. Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla: '' | + | * U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2. |
- | ==== Související odkazy | + | * Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla: '' |
+ | |||
+ | ==== Prázdné hodnoty | ||
+ | |||
+ | * Pokud míru nelze vypočítat, | ||
+ | |||
+ | ==== Víceslovné tokeny ==== | ||
+ | |||
+ | * Víceslovné tokeny (např. // | ||
+ | |||
+ | ==== Středníky nerozdělují věty pro textové míry ==== | ||
+ | |||
+ | * Míry komplexity jsou citlivé na hranice vět. K dělení vět se používají standardní pravidla, která se uplatňují v celém InterCorpu, včetně toho pravidla, že středník (;) se považuje za oddělovač vět. Textové míry se ale počítají až po spojení vět rozdělených tímto způsobem. To pomáhá zohlednit možné rozdíly v mírách napříč jazyky nebo typy textů, které vznikají pouze kvůli odlišnému užívání středníků. | ||
+ | |||
+ | ===== Odkazy ===== | ||
+ | |||
+ | Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, | ||
+ | |||
+ | Nádvorníková, | ||
+ | |||
+ | Alexandr Rosen (2024): Lexical and syntactic variability | ||
+ | of languages and text genres – a corpus-based study. [[https:// | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | Rosen, A. (2024). [[https:// | ||
- | <WRAP round box 50%> | ||
- | xxx • xxx | ||
- | </ | ||