Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty.
Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry lexikální diverzity.
Viz též níže obecná pravidla pro výpočet měr.
deprel
má některou z následujících hodnot: csubj
, ccomp
, xcomp
, advcl
nebo acl
(viz níže Co se považuje za klauzi).deprel
má některou z následujících hodnot: csubj
, ccomp
, xcomp
, advcl
nebo acl
(viz níže Co se považuje za klauzi).Následující míry jsou zprůměrované hodnoty pro věty. Hodnota mdd se počítá jako průměr pro všechna slova v textu. Průměrné hodnoty pro všechny kombinace jazyka a typu textu v InterCorp v16ud jsou uvedeny v tabulce Podrobné statistiky.
Zobrazení / Korpusová nastavení... / Struktury
, vyberete <s>
a požadované míry (například s.sLength
pro délku věty ve slovech). Aby se míry zobrazily intuitivně, je vhodné přepnout na zobrazení věty místo zobrazení klíčového slova: v Zobrazení
klikněte na KWIC/Věta
. Zobrazení / Korpusová nastavení...'' / Metainformace
, vybrat si položku <s>
a příslušné míry, stejně jako pod Strukturami. Tentokrát se hodnoty měr zobrazí v nejlevějším sloupci bez názvu míry. Toto zobrazení je vhodné pro stažení konkordance ve formátu tabulky.Zobrazení / Korpusová nastavení... / Struktury
nebo Metainformace
, volbě <text>
a požadovaných měr (například text.sLengthAvg
pro průměrnou délku věty ve slovech).K vyhledání vět s konkrétními hodnotami měr, např. vět, které nejsou delší než 10 slov a mají alespoň 5 úrovní vložených klauzí, použijte dotaz:
<s sLength <= "10" & maxTreeDepth >= "5" />
Podobně k vyhledání textu s průměrnou maximální hloubkou jmenných frází ne vyšší než 0,5 použijte následující dotaz1)
<text maxNPDepthAvg <= "0.50" />
Míry lze také kombinovat se standardními dotazy na tokeny. Následující dotaz vyhledává lemma nejsložitější ve větách o délce 3 až 5 slov.
[lemma="nejsložitější"] within <s sLength >= "3" & sLength <= "5" />
aux
, cop
, mark
, det
, clf
, case
, cc
) se započítávají do všech měr, které nejsou definované konkrétní syntaktickými členy (například maxTreeDepth
). Výjimkou jsou souřadicí spojky (deprel="cc"
) v míře maxNPDepth
. Souřadicí spojky se tedy nepočítají jako další úroveň vnoření.deprel="conj"
, nepředstavuje další úroveň vnoření. Hloubka syntaktického stromu (maxTreeDepth
) je tedy stejná pro všechny konstrukce, které se liší pouze přítomností nebo nepřítomností koordinace. Totéž platí i pro hloubku jmenné fráze (maxNPDepth
).flat
, list
, fixed
a parataxis
nezapočítá jako další úroveň vnoření.maxNPLength
a maxNPDepth
se používá slovní druh (upos
) řídícího slova. Kromě NOUN
, PRON
a PROPN
to může být také DET
v substantivním, nikoli atributivním užití.2) Tyto míry se tedy počítají i pro jmenné fráze, jejichž řídící slovo má jako slovní druh DET
v substantivní pozici.maxNPLength
a maxNPDepth
, větné členy mimo jmennou frázi se ignorují. Například ve větě Tohle je často náš hlavní problém se míry počítají pro jmennou frázi náš hlavní problém a nezahrnují další závislé členy řídícího slova jmenné fráze: podmět (Tohle), sponu (je) a příslovečné určení (často).deprel
), se považuje za klauzi (vedlejší větu). Klauze může být finitní i nefinitní.csubj
– klauze ve funkci podmětuccomp
– klauze ve funkci předmětu, tj. jako předmět slovesa nebo přídavného jménaxcomp
– klauze bez vlastního podmětu, tj. nefinitní klauze, jejíž (skrytý) podmět odkazuje na argument řídícího slova; obvykle jde o infinitiv (Doktor mi doporučil zůstat doma), ale může jít také o přídavné jméno (Mámu mám skvělou) nebo podstatné jméno (Pracovala jako pošťačka).advcl
– adverbiální klauze, tj. vedlejší věta příslovečná (i nefinitní)acl
– atributivní (adnominální) klauze, tj. vedlejší věta přívlastková (i nefinitní)acl
(adnominální klauze), zatímco jeho český protějšek by byl amod
(adjektivní modifikátor), a to kvůli svému slovnímu druhu ADJ
(přídavné jméno).sLength, maxTreeDepth, maxNPLength
a maxNPDepth
.sLength
) počítají jako jeden token, ale pro všechny ostatní míry se počítají jako samostatná slova.Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, students’ writing abilities, and writing quality. Read Writ 33, 2577–2638 (2020). https://doi.org/10.1007/s11145-020-10057-x
Nádvorníková, O. & Rosen, A. (2024). Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Workshop 17. 9. 2024 jako doprovodná akce Bienále české lingvistiky. video prezentace
Alexandr Rosen (2024): Lexical and syntactic variability of languages and text genres – a corpus-based study. Záznam přednášky ze 14. 10. 2024, Seminarium „Przetwarzanie języka naturalnego” Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk, viz též prezentace.
InterCorp a Universal Dependencies: nové možnosti výzkumu (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace)
Rosen, A. (2024). Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics (slides from the seminar at the University of Warsaw, 10 July 2024)
DET
také pro některá slova, která jsou tradičně klasifikována jinak, např. jako ukazovací zájmena.