Syntaktická komplexita

Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty.

Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry lexikální diverzity.

Míry pro věty

Viz též níže Jak se míry počítají – obecná pravidla.

maxNPLength: počet slov v nejdelší jmenné frázi
- Interpunkce se ignoruje.
- Definice jmenné fráze viz níže Co se považuje za jmennou frázi.
maxNPDepth: pro jmennou frázi s nejdelším řetězcem vnoření: počet takových vnoření
- Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0.
- Funkční slova (např. determinátory nebo předložky) představují další úroveň zanoření.
- Interpunkce se ignoruje.
- Koordinace nepředstavuje další úroveň zanoření.
- Definice jmenné fráze viz níže Co se považuje za jmennou frázi.
sLength: délka věty v počtu slov
- Interpunkce se ignoruje.
subRatio: subordinační poměr = (počet T-units + počet klauzí) / počet T-units.
- T-unit je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se považuje za jeden T-unit.
- Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž deprel má některou z následujících hodnot: csubj, ccomp, xcomp, advcl nebo acl (viz níže Co se považuje za klauzi).
- Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.
maxTreeDepth: pro větu s nejdelším řetězcem vnořených klauzí: počet takových klauzí.
- Pro ničím nerozvitý řídící člen věty je míra rovna 0.
- Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž deprel má některou z následujících hodnot: csubj, ccomp, xcomp, advcl nebo acl (viz níže Co se považuje za klauzi).
- Koordinace nepředstavuje další úroveň zanoření.
- Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.
mdd: průměrná délka závislostí (mean dependency distance): průměrný počet hranic slov mezi slovem a jeho řídícím členem.
- Interpunkce se ignoruje.

Míry pro texty

Následující míry jsou zprůměrované hodnoty pro věty. Hodnota mdd se počítá jako průměr pro všechna slova v textu. Průměrné hodnoty pro všechny kombinace jazyka a typu textu v InterCorp v16ud jsou uvedeny v tabulce Podrobné statistiky.

maxNPLengthAvg: průměrný počet slov v nejdelší jmenné frázi
maxNPDepthAvg: průměrný počet vnořených slov ve jmenné frázi s nejdelším řetězcem vnořených slov
sLengthAvg: průměrná délka věty = počet slov ve větě
subRatioAvg: průměrný subordinační poměr = (počet T-jednotek + počet vět) / počet T-jednotek
maxTreeDepthAvg: průměrný maximální počet závislých klauzí
mdd: průměrná délka závislostí: průměrný počet hranic slov mezi slovem a jeho řídícím uzlem

Jak míry zobrazit

Věty v konkordanci lze zobrazit se syntaktickými mírami tak, že přejdete na Zobrazení / Korpusová nastavení... / Struktury, vyberete <s> a požadované míry (například s.sLength pro délku věty ve slovech). Aby se míry zobrazily intuitivně, je vhodné přepnout na zobrazení věty místo zobrazení klíčového slova: v Zobrazení klikněte na KWIC/Věta.
Můžete také přejít na Zobrazení / Korpusová nastavení...'' / Metainformace, vybrat si položku <s> a příslušné míry, stejně jako pod Strukturami. Tentokrát se hodnoty měr zobrazí v nejlevějším sloupci bez názvu míry. Toto zobrazení je vhodné pro stažení konkordance ve formátu tabulky.
Průměrné míry za texty se zobrazí po kliknutí na Zobrazení / Korpusová nastavení... / Struktury nebo Metainformace, volbě <text> a požadovaných měr (například text.sLengthAvg pro průměrnou délku věty ve slovech).
Průměrné míry za jazyky a typy textů ve verzi InterCorp 16ud ukazuje tabulka Podrobné statistiky.

Použití měr v dotazech

K vyhledání vět s konkrétními hodnotami měr, např. vět, které nejsou delší než 10 slov a mají alespoň 5 úrovní vložených klauzí, použijte dotaz:

<s sLength <= "10" & maxTreeDepth >= "5" />

Podobně k vyhledání textu s průměrnou maximální hloubkou jmenných frází ne vyšší než 0,5 použijte následující dotaz¹⁾

<text maxNPDepthAvg <= "0.50" />

Míry lze také kombinovat se standardními dotazy na tokeny. Následující dotaz vyhledává lemma nejsložitější ve větách o délce 3 až 5 slov.

[lemma="nejsložitější"] within <s sLength >= "3" & sLength <= "5" />

Jak se míry počítají – obecná pravidla

Interpunkce

Interpunkce se ignoruje u všech měr.
U větných měr představují středníky hranici věty, ale pro textové míry jsou ale takto rozdělené věty spojeny.

Funkční slova

Funkční slova (závislostní relace aux, cop, mark, det, clf, case, cc) se započítávají do všech měr, které nejsou definované konkrétní syntaktickými členy (například maxTreeDepth). Výjimkou jsou souřadicí spojky (deprel="cc") v míře maxNPDepth. Souřadicí spojky se tedy nepočítají jako další úroveň vnoření.

Koordinace a jiné „technické“ závislostní relace

Druhý a další člen koordinace, který závisí na prvním členu a jehož řídícím slovem je slovo s deprel="conj", nepředstavuje další úroveň vnoření. Hloubka syntaktického stromu (maxTreeDepth) je tedy stejná pro všechny konstrukce, které se liší pouze přítomností nebo nepřítomností koordinace. Totéž platí i pro hloubku jmenné fráze (maxNPDepth).
Kromě koordinace existují i další konstrukce, kde závislostní relace neodrážejí lingvistickou intuici, ale vyžaduje je závislostní formalismus. Z tohoto důvodu se žádná závislostní relace typu flat, list, fixed a parataxis nezapočítá jako další úroveň vnoření.

Co se považuje za jmennou frázi

K určení jmenných frází pro míry maxNPLength a maxNPDepth se používá slovní druh (upos) řídícího slova. Kromě NOUN, PRON a PROPN to může být také DET v substantivním, nikoli atributivním užití.²⁾ Tyto míry se tedy počítají i pro jmenné fráze, jejichž řídící slovo má jako slovní druh DET v substantivní pozici.
V UD je řídící slovo přísudkového jména, obvykle v konstrukci se sponou, nejen řídícím slovem jmenné fráze, ale také celé věty. Můžou na něm pak záviset některé další větné členy, jako např. podmět nebo příslovečné určení. Aby bylo možné v takových případech správně vypočítat míry maxNPLength a maxNPDepth, větné členy mimo jmennou frázi se ignorují. Například ve větě Tohle je často náš hlavní problém se míry počítají pro jmennou frázi náš hlavní problém a nezahrnují další závislé členy řídícího slova jmenné fráze: podmět (Tohle), sponu (je) a příslovečné určení (často).

Co se považuje za klauzi

Jakýkoliv podstrom s řídícím slovem, které má jeden z níže uvedených závislostních vztahů (deprel), se považuje za klauzi (vedlejší větu). Klauze může být finitní i nefinitní.
- csubj – klauze ve funkci podmětu
- ccomp – klauze ve funkci předmětu, tj. jako předmět slovesa nebo přídavného jména
- xcomp – klauze bez vlastního podmětu, tj. nefinitní klauze, jejíž (skrytý) podmět odkazuje na argument řídícího slova; obvykle jde o infinitiv (Doktor mi doporučil zůstat doma), ale může jít také o přídavné jméno (Mámu mám skvělou) nebo podstatné jméno (Pracovala jako pošťačka).
- advcl – adverbiální klauze, tj. vedlejší věta příslovečná (i nefinitní)
- acl – atributivní (adnominální) klauze, tj. vedlejší věta přívlastková (i nefinitní)
Podle morfosyntaktické kategorie řídícího slova se v různých jazycích podobné větné členy mohou a nemusí považovat za klauze. Ve francouzštině je nejpravděpodobnější funkcí atributivně užitého příčestí acl (adnominální klauze), zatímco jeho český protějšek by byl amod (adjektivní modifikátor), a to kvůli svému slovnímu druhu ADJ (přídavné jméno).

Hodnoty jako desetinná čísla

U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2.
Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla: sLength, maxTreeDepth, maxNPLength a maxNPDepth.

Prázdné hodnoty

Pokud míru nelze vypočítat, např. protože věta je příliš krátká (např. míra mdd pro jednoslovnou větu), hodnota je nahrazena znakem podtržítka (_).

Víceslovné tokeny

Víceslovné tokeny (např. abychom, oč, přišels, anglické can't, isn't nebo francouzské a německé aglutinované předložky se členem (aux, zum) se pro míru délky věty (sLength) počítají jako jeden token, ale pro všechny ostatní míry se počítají jako samostatná slova.

Středníky nerozdělují věty pro textové míry

Míry komplexity jsou citlivé na hranice vět. K dělení vět se používají standardní pravidla, která se uplatňují v celém InterCorpu, včetně toho pravidla, že středník (;) se považuje za oddělovač vět. Textové míry se ale počítají až po spojení vět rozdělených tímto způsobem. To pomáhá zohlednit možné rozdíly v mírách napříč jazyky nebo typy textů, které vznikají pouze kvůli odlišnému užívání středníků.

Odkazy

Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, students’ writing abilities, and writing quality. Read Writ 33, 2577–2638 (2020). https://doi.org/10.1007/s11145-020-10057-x

Nádvorníková, O. & Rosen, A. (2024). Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Workshop 17. 9. 2024 jako doprovodná akce Bienále české lingvistiky. video prezentace

Alexandr Rosen (2024): Lexical and syntactic variability of languages and text genres – a corpus-based study. Záznam přednášky ze 14. 10. 2024, Seminarium „Przetwarzanie języka naturalnego” Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk, viz též prezentace.

InterCorp a Universal Dependencies: nové možnosti výzkumu (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace)

Rosen, A. (2024). Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics (slides from the seminar at the University of Warsaw, 10 July 2024)

¹⁾

Poznámka: Nula na pravé straně desetinného čísla je povinná. Desetinné číslo musí mít přesně dvě číslice za desetinnou tečkou. Viz values_as_decimal_numbers.

²⁾

V některých jazycích používá UD DET také pro některá slova, která jsou tradičně klasifikována jinak, např. jako ukazovací zájmena.