Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:syntakticka_komplexita [2024/10/01 09:47] – [Co se považuje za klauzi] alexandrrosen | pojmy:syntakticka_komplexita [2024/10/18 20:34] (aktuální) – [Odkazy] alexandrrosen | ||
---|---|---|---|
Řádek 3: | Řádek 3: | ||
Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. | Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. | ||
- | Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[cs:pojmy: | + | Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[pojmy: |
===== Míry pro věty ===== | ===== Míry pro věty ===== | ||
Řádek 11: | Řádek 11: | ||
* **maxNPLength**: | * **maxNPLength**: | ||
* Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
- | * Definice jmenné fráze viz níže [[https:// | + | * Definice jmenné fráze viz níže [[https:// |
* **maxNPDepth**: | * **maxNPDepth**: | ||
* Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0. | * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0. | ||
Řádek 17: | Řádek 17: | ||
* Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
* Koordinace nepředstavuje další úroveň zanoření. | * Koordinace nepředstavuje další úroveň zanoření. | ||
- | * Definice jmenné fráze viz níže [[https:// | + | * Definice jmenné fráze viz níže [[https:// |
* **sLength**: | * **sLength**: | ||
* Interpunkce se ignoruje. | * Interpunkce se ignoruje. | ||
- | * **subRatio**: | + | * **subRatio**: |
- | * T-jednotka | + | * T-unit je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se považuje za jeden T-unit. |
- | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' | + | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' |
* Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | ||
* **maxTreeDepth**: | * **maxTreeDepth**: | ||
* Pro ničím nerozvitý řídící člen věty je míra rovna 0. | * Pro ničím nerozvitý řídící člen věty je míra rovna 0. | ||
- | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' | + | * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž '' |
* Koordinace nepředstavuje další úroveň zanoření. | * Koordinace nepředstavuje další úroveň zanoření. | ||
* Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. | ||
Řádek 96: | Řádek 96: | ||
* '' | * '' | ||
* Podle morfosyntaktické kategorie řídícího slova se v různých jazycích podobné větné členy mohou a nemusí považovat za klauze. Ve francouzštině je nejpravděpodobnější funkcí atributivně užitého příčestí | * Podle morfosyntaktické kategorie řídícího slova se v různých jazycích podobné větné členy mohou a nemusí považovat za klauze. Ve francouzštině je nejpravděpodobnější funkcí atributivně užitého příčestí | ||
- | ==== Související odkazy | + | |
+ | ==== Hodnoty jako desetinná čísla | ||
+ | |||
+ | * U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2. | ||
+ | * Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla: '' | ||
+ | |||
+ | ==== Prázdné hodnoty ==== | ||
+ | |||
+ | * Pokud míru nelze vypočítat, | ||
+ | |||
+ | ==== Víceslovné tokeny ==== | ||
+ | |||
+ | * Víceslovné tokeny (např. // | ||
+ | |||
+ | ==== Středníky nerozdělují věty pro textové míry ==== | ||
+ | |||
+ | * Míry komplexity jsou citlivé na hranice vět. K dělení vět se používají standardní pravidla, která se uplatňují v celém InterCorpu, včetně toho pravidla, že středník (;) se považuje za oddělovač vět. Textové míry se ale počítají až po spojení vět rozdělených tímto způsobem. To pomáhá zohlednit možné rozdíly v mírách napříč jazyky nebo typy textů, které vznikají pouze kvůli odlišnému užívání středníků. | ||
+ | |||
+ | ===== Odkazy ===== | ||
+ | |||
+ | Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, | ||
+ | |||
+ | Nádvorníková, | ||
+ | |||
+ | Alexandr Rosen (2024): Lexical and syntactic variability | ||
+ | of languages and text genres – a corpus-based study. [[https:// | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | Rosen, A. (2024). [[https:// | ||
- | <WRAP round box 50%> | ||
- | xxx • xxx | ||
- | </ | ||