====== Syntaktická komplexita ====== Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[pojmy:lexikalni_bohatost|lexikální diverzity]]**. ===== Míry pro věty ===== Viz též níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#how_the_measures_are_calculated_general_rules|obecná pravidla pro výpočet měr]]. * **maxNPLength**: počet slov v nejdelší jmenné frázi * Interpunkce se ignoruje. * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_jmennou_frazi|Co se považuje za jmennou frázi]]. * **maxNPDepth**: pro jemnnou frázi s nejdelším řetězcem vnoření: počet takových vnoření * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0. * Funkční slova (např. determinátory nebo předložky) představují další úroveň zanoření. * Interpunkce se ignoruje. * Koordinace nepředstavuje další úroveň zanoření. * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_jmennou_frazi|Co se považuje za jmennou frázi]]. * **sLength**: délka věty v počtu slov * Interpunkce se ignoruje. * **subRatio**: subordinační poměr = (počet T-units + počet klauzí) / počet T-units. * T-unit je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se považuje za jeden T-unit. * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_klauzi|Co se považuje za klauzi]]). * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. * **maxTreeDepth**: pro větu s nejdelším řetězcem vnořených klauzí: počet takových klauzí. * Pro ničím nerozvitý řídící člen věty je míra rovna 0. * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_klauzi|Co se považuje za klauzi]]). * Koordinace nepředstavuje další úroveň zanoření. * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. * **mdd**: průměrná délka závislostí (//mean dependency distance//): průměrný počet hranic slov mezi slovem a jeho řídícím členem. * Interpunkce se ignoruje. ===== Míry pro texty ===== Následující míry jsou zprůměrované hodnoty pro věty. Hodnota **mdd** se počítá jako průměr pro všechna slova v textu. Průměrné hodnoty pro všechny kombinace jazyka a typu textu v InterCorp v16ud jsou uvedeny v tabulce [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze16ud#detailed_statistics|Podrobné statistiky]]. * **maxNPLengthAvg**: průměrný počet slov v nejdelší jmenné frázi * **maxNPDepthAvg**: průměrný počet vnořených slov ve jmenné frázi s nejdelším řetězcem vnořených slov * **sLengthAvg**: průměrná délka věty = počet slov ve větě * **subRatioAvg**: průměrný subordinační poměr = (počet T-jednotek + počet vět) / počet T-jednotek * **maxTreeDepthAvg**: průměrný maximální počet závislých klauzí * **mdd**: průměrná délka závislostí: průměrný počet hranic slov mezi slovem a jeho řídícím uzlem ===== Jak míry zobrazit ===== * Věty v konkordanci lze zobrazit se syntaktickými mírami tak, že přejdete na ''%%Zobrazení / Korpusová nastavení... / Struktury%%'', vyberete ''%%%%'' a požadované míry (například ''%%s.sLength%%'' pro délku věty ve slovech). Aby se míry zobrazily intuitivně, je vhodné přepnout na zobrazení věty místo zobrazení klíčového slova: v ''%%Zobrazení%%'' klikněte na ''%%KWIC/Věta%%''. * Můžete také přejít na ''%%Zobrazení / Korpusová nastavení...'' / Metainformace%%'', vybrat si položku ''%%%%'' a příslušné míry, stejně jako pod Strukturami. Tentokrát se hodnoty měr zobrazí v nejlevějším sloupci bez názvu míry. Toto zobrazení je vhodné pro stažení konkordance ve formátu tabulky. * Průměrné míry za texty se zobrazí po kliknutí na ''%%Zobrazení / Korpusová nastavení... / Struktury%%'' nebo ''%%Metainformace%%'', volbě ''%%%%'' a požadovaných měr (například ''%%text.sLengthAvg%%'' pro průměrnou délku věty ve slovech). * Průměrné míry za jazyky a typy textů ve verzi InterCorp 16ud ukazuje tabulka [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze16ud#detailed_statistics|Podrobné statistiky]]. ===== Použití měr v dotazech ===== K vyhledání vět s konkrétními hodnotami měr, např. vět, které nejsou delší než 10 slov a mají alespoň 5 úrovní vložených klauzí, použijte dotaz: = "5" /> Podobně k vyhledání textu s průměrnou maximální hloubkou jmenných frází ne vyšší než 0,5 použijte následující dotaz((Poznámka: Nula na pravé straně desetinného čísla je povinná. Desetinné číslo musí mít přesně dvě číslice za desetinnou tečkou. Viz [[pojmy:syntakticka_komplexita#values_as_decimal_numbers]].)) Míry lze také kombinovat se standardními dotazy na tokeny. Následující dotaz vyhledává lemma //nejsložitější// ve větách o délce 3 až 5 slov. [lemma="nejsložitější"] within = "3" & sLength <= "5" /> ===== Jak se míry počítají – obecná pravidla ===== ==== Interpunkce ==== * Interpunkce se ignoruje u všech měr. * U větných měr představují středníky hranici věty, ale pro textové míry jsou ale takto rozdělené věty spojeny. ==== Funkční slova ==== * Funkční slova (závislostní relace ''aux'', ''cop'', ''mark'', ''det'', ''clf'', ''case'', ''cc'') se započítávají do všech měr, které nejsou definované konkrétní syntaktickými členy (například ''maxTreeDepth''). Výjimkou jsou souřadicí spojky (''%%deprel="cc"%%'') v míře ''maxNPDepth''. Souřadicí spojky se tedy nepočítají jako další úroveň vnoření. ==== Koordinace a jiné „technické“ závislostní relace ==== * Druhý a další člen koordinace, který závisí na prvním členu a jehož řídícím slovem je slovo s ''%%deprel="conj"%%'', nepředstavuje další úroveň vnoření. Hloubka syntaktického stromu (''maxTreeDepth'') je tedy stejná pro všechny konstrukce, které se liší pouze přítomností nebo nepřítomností koordinace. Totéž platí i pro hloubku jmenné fráze (''maxNPDepth''). * Kromě koordinace existují i další konstrukce, kde závislostní relace neodrážejí lingvistickou intuici, ale vyžaduje je závislostní formalismus. Z tohoto důvodu se žádná závislostní relace typu ''flat'', ''list'', ''fixed'' a ''parataxis'' nezapočítá jako další úroveň vnoření. ==== Co se považuje za jmennou frázi ==== * K určení jmenných frází pro míry ''maxNPLength'' a ''maxNPDepth'' se používá slovní druh (''upos'') řídícího slova. Kromě ''NOUN'', ''PRON'' a ''PROPN'' to může být také ''DET'' v substantivním, nikoli atributivním užití.((V některých jazycích používá UD ''DET'' také pro některá slova, která jsou tradičně klasifikována jinak, např. jako ukazovací zájmena.)) Tyto míry se tedy počítají i pro jmenné fráze, jejichž řídící slovo má jako slovní druh ''DET'' v substantivní pozici. * V UD je řídící slovo přísudkového jména, obvykle v konstrukci se sponou, nejen řídícím slovem jmenné fráze, ale také celé věty. Můžou na něm pak záviset některé další větné členy, jako např. podmět nebo příslovečné určení. Aby bylo možné v takových případech správně vypočítat míry ''maxNPLength'' a ''maxNPDepth'', větné členy mimo jmennou frázi se ignorují. Například ve větě //Tohle je často náš hlavní problém// se míry počítají pro jmennou frázi //náš hlavní problém// a nezahrnují další závislé členy řídícího slova jmenné fráze: podmět (//Tohle//), sponu (//je//) a příslovečné určení (//často//). ==== Co se považuje za klauzi ==== * Jakýkoliv podstrom s řídícím slovem, které má jeden z níže uvedených závislostních vztahů (''deprel''), se považuje za klauzi (vedlejší větu). Klauze může být finitní i nefinitní. * ''csubj'' – klauze ve funkci podmětu * ''ccomp'' – klauze ve funkci předmětu, tj. jako předmět slovesa nebo přídavného jména * ''xcomp'' – klauze bez vlastního podmětu, tj. nefinitní klauze, jejíž (skrytý) podmět odkazuje na argument řídícího slova; obvykle jde o infinitiv (//Doktor mi doporučil **zůstat** doma//), ale může jít také o přídavné jméno (//Mámu mám **skvělou**//) nebo podstatné jméno (//Pracovala jako **pošťačka**//). * ''advcl'' – adverbiální klauze, tj. vedlejší věta příslovečná (i nefinitní) * ''acl'' – atributivní (adnominální) klauze, tj. vedlejší věta přívlastková (i nefinitní) * Podle morfosyntaktické kategorie řídícího slova se v různých jazycích podobné větné členy mohou a nemusí považovat za klauze. Ve francouzštině je nejpravděpodobnější funkcí atributivně užitého příčestí ''acl'' (adnominální klauze), zatímco jeho český protějšek by byl ''amod'' (adjektivní modifikátor), a to kvůli svému slovnímu druhu ''ADJ'' (přídavné jméno). ==== Hodnoty jako desetinná čísla ==== * U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2. * Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla: ''sLength, maxTreeDepth, maxNPLength'' a ''maxNPDepth''. ==== Prázdné hodnoty ==== * Pokud míru nelze vypočítat, např. protože věta je příliš krátká (např. míra mdd pro jednoslovnou větu), hodnota je nahrazena znakem podtržítka (_). ==== Víceslovné tokeny ==== * Víceslovné tokeny (např. //abychom//, //oč//, //přišels//, anglické //can't//, //isn't// nebo francouzské a německé aglutinované předložky se členem (//aux//, //zum//) se pro míru délky věty (''sLength'') počítají jako jeden token, ale pro všechny ostatní míry se počítají jako samostatná slova. ==== Středníky nerozdělují věty pro textové míry ==== * Míry komplexity jsou citlivé na hranice vět. K dělení vět se používají standardní pravidla, která se uplatňují v celém InterCorpu, včetně toho pravidla, že středník (;) se považuje za oddělovač vět. Textové míry se ale počítají až po spojení vět rozdělených tímto způsobem. To pomáhá zohlednit možné rozdíly v mírách napříč jazyky nebo typy textů, které vznikají pouze kvůli odlišnému užívání středníků. ===== Odkazy ===== Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, students’ writing abilities, and writing quality. //Read Writ// **33**, 2577–2638 (2020). [[https://doi.org/10.1007/s11145-020-10057-x]] Nádvorníková, O. & Rosen, A. (2024). Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Workshop 17. 9. 2024 jako doprovodná akce [[https://bcl2024.ff.cuni.cz|Bienále české lingvistiky]]. [[https://www.youtube.com/watch?v=5l5Vbb1eQDw|video]] [[https://jakobson.korpus.cz/~rosen/BCL2024/P18_SLIDES/Prezentace_Bienale2024_WorkShop.pdf|prezentace]] Alexandr Rosen (2024): Lexical and syntactic variability of languages and text genres – a corpus-based study. [[https://www.youtube.com/watch?v=E2ujmqt7Q2E|Záznam přednášky]] ze 14. 10. 2024, [[https://zil.ipipan.waw.pl/seminarium|Seminarium „Przetwarzanie języka naturalnego”]] [[https://zil.ipipan.waw.pl|Zespołu Inżynierii Lingwistycznej]] w [[https://ipipan.waw.pl|Instytucie Podstaw Informatyki]] [[https://pan.pl|Polskiej Akademii Nauk]], viz též [[https://zil.ipipan.waw.pl/seminarium-archiwum?action=AttachFile&do=view&target=2024-10-14.pdf|prezentace]]. [[https://docs.google.com/document/d/1nSPzyhT6oHKUDN8A_uYmWrZH6tAmxTH_pUMOdjg01Eg/edit?usp=sharing|InterCorp a Universal Dependencies: nové možnosti výzkumu]] (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace) Rosen, A. (2024). [[https://drive.google.com/file/d/1L9yTjj0bTrGgf8lDcOAsJoJOoeYEoPEm/view?usp=sharing|Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics]] (slides from the seminar at the University of Warsaw, 10 July 2024)