AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:syntakticka_komplexita [2024/10/01 09:49] – [Co se považuje za klauzi] alexandrrosenpojmy:syntakticka_komplexita [2024/10/18 20:34] (aktuální) – [Odkazy] alexandrrosen
Řádek 3: Řádek 3:
 Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty.  Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty. 
  
-Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[cs:pojmy:lexikalni_bohatost|lexikální diverzity]]**. +Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry **[[pojmy:lexikalni_bohatost|lexikální diverzity]]**. 
  
 ===== Míry pro věty =====  ===== Míry pro věty ===== 
Řádek 11: Řádek 11:
   * **maxNPLength**: počet slov v nejdelší jmenné frázi   * **maxNPLength**: počet slov v nejdelší jmenné frázi
     * Interpunkce se ignoruje.     * Interpunkce se ignoruje.
-    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_noun_phrase|Co se považuje za jmennou frázi]].+    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_jmennou_frazi|Co se považuje za jmennou frázi]].
   * **maxNPDepth**: pro jemnnou frázi s nejdelším řetězcem vnoření: počet takových vnoření   * **maxNPDepth**: pro jemnnou frázi s nejdelším řetězcem vnoření: počet takových vnoření
     * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0.     * Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0.
Řádek 17: Řádek 17:
     * Interpunkce se ignoruje.      * Interpunkce se ignoruje. 
     * Koordinace nepředstavuje další úroveň zanoření.     * Koordinace nepředstavuje další úroveň zanoření.
-    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_noun_phrase|Co se považuje za jmennou frázi]].+    * Definice jmenné fráze viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_jmennou_frazi|Co se považuje za jmennou frázi]].
   * **sLength**: délka věty v počtu slov   * **sLength**: délka věty v počtu slov
     * Interpunkce se ignoruje.     * Interpunkce se ignoruje.
-  * **subRatio**: subordinační poměr = (počet T-jednotek + počet klauzí) / počet T-jednotek+  * **subRatio**: subordinační poměr = (počet T-units + počet klauzí) / počet T-units
-    * T-jednotka je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se počítá jako T-jednotka+    * T-unit je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se považuje za jeden T-unit
-    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_clause|Co se považuje za klauzi]]).+    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_klauzi|Co se považuje za klauzi]]).
     * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.      * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. 
   * **maxTreeDepth**: pro větu s nejdelším řetězcem vnořených klauzí: počet takových klauzí.   * **maxTreeDepth**: pro větu s nejdelším řetězcem vnořených klauzí: počet takových klauzí.
     * Pro ničím nerozvitý řídící člen věty je míra rovna 0.     * Pro ničím nerozvitý řídící člen věty je míra rovna 0.
-    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/en:pojmy:syntakticka_komplexita#what_counts_as_a_clause|Co se považuje za klauzi]]).+    * Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž ''deprel'' má některou z následujících hodnot: ''csubj'', ''ccomp'', ''xcomp'', ''advcl'' nebo ''acl'' (viz níže [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#co_se_povazuje_za_klauzi|Co se považuje za klauzi]]).
     * Koordinace nepředstavuje další úroveň zanoření.     * Koordinace nepředstavuje další úroveň zanoření.
     * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.      * Funkční slova (např. pomocná slovesa nebo spojky) se ignorují. 
Řádek 99: Řádek 99:
 ==== Hodnoty jako desetinná čísla ==== ==== Hodnoty jako desetinná čísla ====
  
-U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2. Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla: ''sLength, maxTreeDepth, maxNPLength'' a ''maxNPDepth''+  * U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2.  
-==== Související odkazy ====+  * Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla: ''sLength, maxTreeDepth, maxNPLength'' a ''maxNPDepth''. 
 + 
 +==== Prázdné hodnoty ==== 
 + 
 +  * Pokud míru nelze vypočítat, např. protože věta je příliš krátká (např. míra mdd pro jednoslovnou větu), hodnota je nahrazena znakem podtržítka (_). 
 + 
 +==== Víceslovné tokeny ==== 
 + 
 +  * Víceslovné tokeny (např. //abychom//, //oč//, //přišels//, anglické //can't//, //isn't// nebo francouzské a německé aglutinované předložky se členem (//aux//, //zum//) se pro míru délky věty (''sLength'') počítají jako jeden token, ale pro všechny ostatní míry se počítají jako samostatná slova. 
 + 
 +==== Středníky nerozdělují věty pro textové míry ==== 
 + 
 +  * Míry komplexity jsou citlivé na hranice vět. K dělení vět se používají standardní pravidla, která se uplatňují v celém InterCorpu, včetně toho pravidla, že středník (;) se považuje za oddělovač vět. Textové míry se ale počítají až po spojení vět rozdělených tímto způsobem. To pomáhá zohlednit možné rozdíly v mírách napříč jazyky nebo typy textů, které vznikají pouze kvůli odlišnému užívání středníků. 
 + 
 +===== Odkazy ===== 
 + 
 +Jagaiah, T., Olinghouse, N.G. & Kearns, D.M. (2020). Syntactic complexity measures: variation by genre, grade-level, students’ writing abilities, and writing quality. //Read Writ// **33**, 2577–2638 (2020). [[https://doi.org/10.1007/s11145-020-10057-x]] 
 + 
 +Nádvorníková, O. & Rosen, A. (2024). Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Workshop 17. 9. 2024 jako doprovodná akce [[https://bcl2024.ff.cuni.cz|Bienále české lingvistiky]]. [[https://www.youtube.com/watch?v=5l5Vbb1eQDw|video]] [[https://jakobson.korpus.cz/~rosen/BCL2024/P18_SLIDES/Prezentace_Bienale2024_WorkShop.pdf|prezentace]] 
 + 
 +Alexandr Rosen (2024): Lexical and syntactic variability 
 +of languages and text genres – a corpus-based study. [[https://www.youtube.com/watch?v=E2ujmqt7Q2E|Záznam přednášky]] ze 14. 10. 2024, [[https://zil.ipipan.waw.pl/seminarium|Seminarium „Przetwarzanie języka naturalnego”]] [[https://zil.ipipan.waw.pl|Zespołu Inżynierii Lingwistycznej]] w [[https://ipipan.waw.pl|Instytucie Podstaw Informatyki]] [[https://pan.pl|Polskiej Akademii Nauk]], viz též [[https://zil.ipipan.waw.pl/seminarium-archiwum?action=AttachFile&do=view&target=2024-10-14.pdf|prezentace]]. 
 + 
 +[[https://docs.google.com/document/d/1nSPzyhT6oHKUDN8A_uYmWrZH6tAmxTH_pUMOdjg01Eg/edit?usp=sharing|InterCorp a Universal Dependencies: nové možnosti výzkumu]] (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace) 
 + 
 +Rosen, A. (2024). [[https://drive.google.com/file/d/1L9yTjj0bTrGgf8lDcOAsJoJOoeYEoPEm/view?usp=sharing|Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics]] (slides from the seminar at the University of Warsaw, 10 July 2024) 
  
  
-<WRAP round box 50%> 
-xxx • xxx 
-</WRAP>