Obsah

Syntaktická komplexita

Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty.

Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry lexikální diverzity.

Míry pro věty

Viz též níže obecná pravidla pro výpočet měr.

Míry pro texty

Následující míry jsou zprůměrované hodnoty pro věty. Hodnota mdd se počítá jako průměr pro všechna slova v textu. Průměrné hodnoty pro všechny kombinace jazyka a typu textu v InterCorp v16ud jsou uvedeny v tabulce Podrobné statistiky.

Jak míry zobrazit

Použití měr v dotazech

K vyhledání vět s konkrétními hodnotami měr, např. vět, které nejsou delší než 10 slov a mají alespoň 5 úrovní vložených klauzí, použijte dotaz:

<s sLength <= "10" & maxTreeDepth >= "5" />

Podobně k vyhledání textu s průměrnou maximální hloubkou jmenných frází ne vyšší než 0,5 použijte následující dotaz1)

<text maxNPDepthAvg <= "0.50" />

Míry lze také kombinovat se standardními dotazy na tokeny. Následující dotaz vyhledává lemma nejsložitější ve větách o délce 3 až 5 slov.

[lemma="nejsložitější"] within <s sLength >= "3" & sLength <= "5" />

Jak se míry počítají – obecná pravidla

Interpunkce

Funkční slova

Koordinace a jiné „technické“ závislostní relace

Co se považuje za jmennou frázi

Co se považuje za klauzi

Hodnoty jako desetinná čísla

Prázdné hodnoty

Víceslovné tokeny

Středníky nerozdělují věty pro textové míry

Odkazy

Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, students’ writing abilities, and writing quality. Read Writ 33, 2577–2638 (2020). https://doi.org/10.1007/s11145-020-10057-x

Nádvorníková, O. & Rosen, A. (2024). Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Workshop 17. 9. 2024 jako doprovodná akce Bienále české lingvistiky. video prezentace

Alexandr Rosen (2024): Lexical and syntactic variability of languages and text genres – a corpus-based study. Záznam přednášky ze 14. 10. 2024, Seminarium „Przetwarzanie języka naturalnego” Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk, viz též prezentace.

InterCorp a Universal Dependencies: nové možnosti výzkumu (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace)

Rosen, A. (2024). Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics (slides from the seminar at the University of Warsaw, 10 July 2024)

1)
Poznámka: Nula na pravé straně desetinného čísla je povinná. Desetinné číslo musí mít přesně dvě číslice za desetinnou tečkou. Viz values_as_decimal_numbers.
2)
V některých jazycích používá UD DET také pro některá slova, která jsou tradičně klasifikována jinak, např. jako ukazovací zájmena.