AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:syntakticka_komplexita [2024/10/01 09:58] – [Související odkazy] alexandrrosenpojmy:syntakticka_komplexita [2024/10/18 20:34] (aktuální) – [Odkazy] alexandrrosen
Řádek 3: Řádek 3:
 Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty.  Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. 
  
-Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[cs:pojmy:lexikalni_bohatost|lexikální diverzity]]**. +Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[pojmy:lexikalni_bohatost|lexikální diverzity]]**. 
  
 ===== Míry pro věty =====  ===== Míry pro věty ===== 
Řádek 11: Řádek 11:
   * **maxNPLength**: počet slov v nejdelší jmenné frázi   * **maxNPLength**: počet slov v nejdelší jmenné frázi
     * Interpunkce se ignoruje.     * Interpunkce se ignoruje.
-    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_noun_phrase|Co se považuje za jmennou frázi]].+    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_jmennou_frazi|Co se považuje za jmennou frázi]].
   * **maxNPDepth**: pro jemnnou frázi s nejdelším řetězcem vnoření: počet takových vnoření   * **maxNPDepth**: pro jemnnou frázi s nejdelším řetězcem vnoření: počet takových vnoření
     * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0.     * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0.
Řádek 17: Řádek 17:
     * Interpunkce se ignoruje.      * Interpunkce se ignoruje. 
     * Koordinace nepředstavuje další úroveň zanoření.     * Koordinace nepředstavuje další úroveň zanoření.
-    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_noun_phrase|Co se považuje za jmennou frázi]].+    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_jmennou_frazi|Co se považuje za jmennou frázi]].
   * **sLength**: délka věty v počtu slov   * **sLength**: délka věty v počtu slov
     * Interpunkce se ignoruje.     * Interpunkce se ignoruje.
-  * **subRatio**: subordinační poměr = (počet T-jednotek + počet klauzí) / počet T-jednotek+  * **subRatio**: subordinační poměr = (počet T-units + počet klauzí) / počet T-units
-    * T-jednotka je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se počítá jako T-jednotka+    * T-unit je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se považuje za jeden T-unit
-    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_clause|Co se považuje za klauzi]]).+    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_klauzi|Co se považuje za klauzi]]).
     * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.      * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. 
   * **maxTreeDepth**: pro větu s nejdelším řetězcem vnořených klauzí: počet takových klauzí.   * **maxTreeDepth**: pro větu s nejdelším řetězcem vnořených klauzí: počet takových klauzí.
     * Pro ničím nerozvitý řídící člen věty je míra rovna 0.     * Pro ničím nerozvitý řídící člen věty je míra rovna 0.
-    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_clause|Co se považuje za klauzi]]).+    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_klauzi|Co se považuje za klauzi]]).
     * Koordinace nepředstavuje další úroveň zanoření.     * Koordinace nepředstavuje další úroveň zanoření.
     * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.      * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. 
Řádek 117: Řádek 117:
  
 Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, students’ writing abilities, and writing quality. //Read Writ// **33**, 2577–2638 (2020). [[https://doi.org/10.1007/s11145-020-10057-x]] Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, students’ writing abilities, and writing quality. //Read Writ// **33**, 2577–2638 (2020). [[https://doi.org/10.1007/s11145-020-10057-x]]
 +
 +Nádvorníková, O. & Rosen, A. (2024). Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Workshop 17. 9. 2024 jako doprovodná akce [[https://bcl2024.ff.cuni.cz|Bienále české lingvistiky]]. [[https://www.youtube.com/watch?v=5l5Vbb1eQDw|video]] [[https://jakobson.korpus.cz/~rosen/BCL2024/P18_SLIDES/Prezentace_Bienale2024_WorkShop.pdf|prezentace]]
 +
 +Alexandr Rosen (2024): Lexical and syntactic variability
 +of languages and text genres – a corpus-based study. [[https://www.youtube.com/watch?v=E2ujmqt7Q2E|Záznam přednášky]] ze 14. 10. 2024, [[https://zil.ipipan.waw.pl/seminarium|Seminarium „Przetwarzanie języka naturalnego”]] [[https://zil.ipipan.waw.pl|Zespołu Inżynierii Lingwistycznej]] w [[https://ipipan.waw.pl|Instytucie Podstaw Informatyki]] [[https://pan.pl|Polskiej Akademii Nauk]], viz též [[https://zil.ipipan.waw.pl/seminarium-archiwum?action=AttachFile&do=view&target=2024-10-14.pdf|prezentace]].
  
 [[https://docs.google.com/document/d/1nSPzyhT6oHKUDN8A_uYmWrZH6tAmxTH_pUMOdjg01Eg/edit?usp=sharing|InterCorp a Universal Dependencies: nové možnosti výzkumu]] (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace) [[https://docs.google.com/document/d/1nSPzyhT6oHKUDN8A_uYmWrZH6tAmxTH_pUMOdjg01Eg/edit?usp=sharing|InterCorp a Universal Dependencies: nové možnosti výzkumu]] (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace)
  
-[[https://drive.google.com/file/d/1L9yTjj0bTrGgf8lDcOAsJoJOoeYEoPEm/view?usp=sharing|Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics]] (slides from the seminar at the University of Warsaw, 10 July 2024) +Rosen, A. (2024). [[https://drive.google.com/file/d/1L9yTjj0bTrGgf8lDcOAsJoJOoeYEoPEm/view?usp=sharing|Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics]] (slides from the seminar at the University of Warsaw, 10 July 2024)