Toto je starší verze dokumentu!
Obsah
Syntaktická komplexita
Verze 16ud korpusu InterCorp je anotována několika mírami syntaktické komplexity. Jsou uvedeny jako metadata pro každou větu a každý text, pro každý lingvisticky anotovaný jazyk. V KonTextu je lze zobrazit a používat v dotazech stejně jako jakékoli jiné položky metadat, např. autor textu nebo ID věty.
Kromě měr syntaktické složitosti obsahuje každý dostatečně dlouhý text také dvě míry lexikální diverzity.
Míry pro věty
Viz též níže obecná pravidla pro výpočet měr.
- maxNPLength: počet slov v nejdelší jmenné frázi
- Interpunkce se ignoruje.
- Definice jmenné fráze viz níže Co se považuje za jmennou frázi.
- maxNPDepth: pro jemnnou frázi s nejdelším řetězcem vnoření: počet takových vnoření
- Pro ničím nerozvitý řídící člen jmenné fráze je míra rovna 0.
- Funkční slova (např. determinátory nebo předložky) představují další úroveň zanoření.
- Interpunkce se ignoruje.
- Koordinace nepředstavuje další úroveň zanoření.
- Definice jmenné fráze viz níže Co se považuje za jmennou frázi.
- sLength: délka věty v počtu slov
- Interpunkce se ignoruje.
- subRatio: subordinační poměr = (počet T-jednotek + počet klauzí) / počet T-jednotek.
- T-jednotka je hlavní věta včetně všech závislých klauzí. Každý člen koordinace na úrovni hlavní věty včetně všech závislých klauzí se počítá jako T-jednotka.
- Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž
deprel
má některou z následujících hodnot:csubj
,ccomp
,xcomp
,advcl
neboacl
(viz níže Co se považuje za klauzi). - Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.
- maxTreeDepth: pro větu s nejdelším řetězcem vnořených klauzí: počet takových klauzí.
- Pro ničím nerozvitý řídící člen věty je míra rovna 0.
- Jiné konstituenty než klauze se ignorují. Klauze jsou definovány jako podstromy řízené uzlem, jejichž
deprel
má některou z následujících hodnot:csubj
,ccomp
,xcomp
,advcl
neboacl
(viz níže Co se považuje za klauzi). - Koordinace nepředstavuje další úroveň zanoření.
- Funkční slova (např. pomocná slovesa nebo spojky) se ignorují.
- mdd: průměrná délka závislostí (mean dependency distance): průměrný počet hranic slov mezi slovem a jeho řídícím členem.
- Interpunkce se ignoruje.
Míry pro texty
Následující míry jsou zprůměrované hodnoty pro věty. Hodnota mdd se počítá jako průměr pro všechna slova v textu. Průměrné hodnoty pro všechny kombinace jazyka a typu textu v InterCorp v16ud jsou uvedeny v tabulce Podrobné statistiky.
- maxNPLengthAvg: průměrný počet slov v nejdelší jmenné frázi
- maxNPDepthAvg: průměrný počet vnořených slov ve jmenné frázi s nejdelším řetězcem vnořených slov
- sLengthAvg: průměrná délka věty = počet slov ve větě
- subRatioAvg: průměrný subordinační poměr = (počet T-jednotek + počet vět) / počet T-jednotek
- maxTreeDepthAvg: průměrný maximální počet závislých klauzí
- mdd: průměrná délka závislostí: průměrný počet hranic slov mezi slovem a jeho řídícím uzlem
Jak míry zobrazit
- Věty v konkordanci lze zobrazit se syntaktickými mírami tak, že přejdete na
Zobrazení / Korpusová nastavení... / Struktury
, vyberete<s>
a požadované míry (napříklads.sLength
pro délku věty ve slovech). Aby se míry zobrazily intuitivně, je vhodné přepnout na zobrazení věty místo zobrazení klíčového slova: vZobrazení
klikněte naKWIC/Věta
. - Můžete také přejít na
Zobrazení / Korpusová nastavení...'' / Metainformace
, vybrat si položku<s>
a příslušné míry, stejně jako pod Strukturami. Tentokrát se hodnoty měr zobrazí v nejlevějším sloupci bez názvu míry. Toto zobrazení je vhodné pro stažení konkordance ve formátu tabulky. - Průměrné míry za texty se zobrazí po kliknutí na
Zobrazení / Korpusová nastavení... / Struktury
neboMetainformace
, volbě<text>
a požadovaných měr (napříkladtext.sLengthAvg
pro průměrnou délku věty ve slovech). - Průměrné míry za jazyky a typy textů ve verzi InterCorp 16ud ukazuje tabulka Podrobné statistiky.
Použití měr v dotazech
K vyhledání vět s konkrétními hodnotami měr, např. vět, které nejsou delší než 10 slov a mají alespoň 5 úrovní vložených klauzí, použijte dotaz:
<s sLength <= "10" & maxTreeDepth >= "5" />
Podobně k vyhledání textu s průměrnou maximální hloubkou jmenných frází ne vyšší než 0,5 použijte následující dotaz1)
<text maxNPDepthAvg <= "0.50" />
Míry lze také kombinovat se standardními dotazy na tokeny. Následující dotaz vyhledává lemma nejsložitější ve větách o délce 3 až 5 slov.
[lemma="nejsložitější"] within <s sLength >= "3" & sLength <= "5" />
Jak se míry počítají – obecná pravidla
Interpunkce
- Interpunkce se ignoruje u všech měr.
- U větných měr představují středníky hranici věty, ale pro textové míry jsou ale takto rozdělené věty spojeny.
Funkční slova
- Funkční slova (závislostní relace
aux
,cop
,mark
,det
,clf
,case
,cc
) se započítávají do všech měr, které nejsou definované konkrétní syntaktickými členy (napříkladmaxTreeDepth
). Výjimkou jsou souřadicí spojky (deprel="cc"
) v mířemaxNPDepth
. Souřadicí spojky se tedy nepočítají jako další úroveň vnoření.
Koordinace a jiné „technické“ závislostní relace
- Druhý a další člen koordinace, který závisí na prvním členu a jehož řídícím slovem je slovo s
deprel="conj"
, nepředstavuje další úroveň vnoření. Hloubka syntaktického stromu (maxTreeDepth
) je tedy stejná pro všechny konstrukce, které se liší pouze přítomností nebo nepřítomností koordinace. Totéž platí i pro hloubku jmenné fráze (maxNPDepth
). - Kromě koordinace existují i další konstrukce, kde závislostní relace neodrážejí lingvistickou intuici, ale vyžaduje je závislostní formalismus. Z tohoto důvodu se žádná závislostní relace typu
flat
,list
,fixed
aparataxis
nezapočítá jako další úroveň vnoření.
Co se považuje za jmennou frázi
- K určení jmenných frází pro míry
maxNPLength
amaxNPDepth
se používá slovní druh (upos
) řídícího slova. KroměNOUN
,PRON
aPROPN
to může být takéDET
v substantivním, nikoli atributivním užití.2) Tyto míry se tedy počítají i pro jmenné fráze, jejichž řídící slovo má jako slovní druhDET
v substantivní pozici. - V UD je řídící slovo přísudkového jména, obvykle v konstrukci se sponou, nejen řídícím slovem jmenné fráze, ale také celé věty. Můžou na něm pak záviset některé další větné členy, jako např. podmět nebo příslovečné určení. Aby bylo možné v takových případech správně vypočítat míry
maxNPLength
amaxNPDepth
, větné členy mimo jmennou frázi se ignorují. Například ve větě Tohle je často náš hlavní problém se míry počítají pro jmennou frázi náš hlavní problém a nezahrnují další závislé členy řídícího slova jmenné fráze: podmět (Tohle), sponu (je) a příslovečné určení (často).
Co se považuje za klauzi
- Jakýkoliv podstrom s řídícím slovem, které má jeden z níže uvedených závislostních vztahů (
deprel
), se považuje za klauzi (vedlejší větu). Klauze může být finitní i nefinitní.csubj
– klauze ve funkci podmětuccomp
– klauze ve funkci předmětu, tj. jako předmět slovesa nebo přídavného jménaxcomp
– klauze bez vlastního podmětu, tj. nefinitní klauze, jejíž (skrytý) podmět odkazuje na argument řídícího slova; obvykle jde o infinitiv (Doktor mi doporučil zůstat doma), ale může jít také o přídavné jméno (Mámu mám skvělou) nebo podstatné jméno (Pracovala jako pošťačka).advcl
– adverbiální klauze, tj. vedlejší věta příslovečná (i nefinitní)acl
– atributivní (adnominální) klauze, tj. vedlejší věta přívlastková (i nefinitní)
- Podle morfosyntaktické kategorie řídícího slova se v různých jazycích podobné větné členy mohou a nemusí považovat za klauze. Ve francouzštině je nejpravděpodobnější funkcí atributivně užitého příčestí
acl
(adnominální klauze), zatímco jeho český protějšek by bylamod
(adjektivní modifikátor), a to kvůli svému slovnímu druhuADJ
(přídavné jméno).
Hodnoty jako desetinná čísla
- U měr, kde se mohou vyskytovat desetinná čísla, by za desetinnou tečkou měly vždy následovat dvě číslice, i když je druhá číslice nebo obě číslice nula, např. 5.30 místo 5.3 nebo 2.00 místo 2.
- Toto pravidlo platí pro všechny textové míry syntaktické komplexity, ale neplatí pro čtyři ze šesti větných měr, které jsou vždy celá čísla:
sLength, maxTreeDepth, maxNPLength
amaxNPDepth
.
Prázdné hodnoty
- Pokud míru nelze vypočítat, např. protože věta je příliš krátká (např. míra mdd pro jednoslovnou větu), hodnota je nahrazena znakem podtržítka (_).
Víceslovné tokeny
- Víceslovné tokeny (např. abychom, oč, přišels, anglické can't, isn't nebo francouzské a německé aglutinované předložky se členem (aux, zum) se pro míru délky věty (
sLength
) počítají jako jeden token, ale pro všechny ostatní míry se počítají jako samostatná slova.
Středníky nerozdělují věty pro textové míry
Míry komplexity jsou citlivé na hranice vět. K dělení vět se používají standardní pravidla, která se uplatňují v celém InterCorpu, včetně toho pravidla, že středník (;) se považuje za oddělovač vět. Textové míry se ale počítají až po spojení vět rozdělených tímto způsobem. To pomáhá zohlednit možné rozdíly v mírách napříč jazyky nebo typy textů, které vznikají pouze kvůli odlišnému užívání středníků.
Související odkazy
xxx • xxx
DET
také pro některá slova, která jsou tradičně klasifikována jinak, např. jako ukazovací zájmena.