Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze13ud [2022/07/03 18:11] – [Hlavní rozdíly mezi verzemi 13 a 13ud] alexandrrosen | cnk:intercorp:verze13ud [2023/04/03 15:27] (aktuální) – [Přístup k textům] alexandrrosen |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 124 127 | 117 877 960 | 391 209 482 | 1 518 645 852 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 124 127 | 117 877 960 | 391 209 482 | 1 518 645 852 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 934 806 | 89 973 959 | 327 497 843 | 1 219 622 437 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 934 806 | 89 973 959 | 327 497 843 | 1 219 622 437 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 657 | 30 | 3 994 | 282 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 657 | 30 | 3 994 | 282 | |
^ ::: ^ Počet textů | 1 657 | 111 951 | 3 994 | 1 843 528 | | ^ ::: ^ Počet textů | 1 657 | 111 951 | 3 994 | 1 843 528 | |
^ ::: ^ Počet vět | 9 782 002 | 13 606 198 | 24 318 736 | 143 196 252 | | ^ ::: ^ Počet vět | 9 782 002 | 13 606 198 | 24 318 736 | 143 196 252 | |
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. | InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. |
| |
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[martin.vavrin@ff.cuni.cz|Martina Vavřína]]. | Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[alexandr.rosen@ff.cuni.cz|Alexandra Rosena]]. |
| |
Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme s lingvistickým značkováním podle standardu [[https://universaldependencies.org|Universal Dependencies]]. | Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme s lingvistickým značkováním podle standardu [[https://universaldependencies.org|Universal Dependencies]]. |
| |
* Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**. | * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**. |
* Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]). | * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]). |
* Obecné zásady anotace jsou uvedeny na stránkách projektu UD ([[https://universaldependencies.org/guidelines.html|UD Guidelines]]), včetně podrobného popisu: | * Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[pojmy:ud|Universal Dependencies]] ve [[pojmy:prehled_pojmu|Slovníčku pojmů ČNK]]. |
* slovních druhů ([[https://universaldependencies.org/u/pos/index.html|Universal POS tags]]) | |
* morfologických kategorií ([[https://universaldependencies.org/u/feat/index.html|Universal features]]) | |
* syntaktických funkcí ([[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]]) | |
* Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, | * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, |
belarusian-hse-ud-2.6-200830, | belarusian-hse-ud-2.6-200830, |
ukrainian-iu-ud-2.6-200830, | ukrainian-iu-ud-2.6-200830, |
vietnamese-vtb-ud-2.6-200830.)) | vietnamese-vtb-ud-2.6-200830.)) |
* Údaje o slovním druhu a morfologických kategoriích se v jiných verzích InterCorpu uvádějí jako [[pojmy:tag#morfologicka_znacka_tag|morfologická značka]] v atributu ''tag''. U většiny jazyků jsou jazykově specifické morfologické značky zachovány i ve verzi 13ud, a to v atributu ''xpos''. **Slovní druh** a **morfologické kategorie** podle UD, označované jednotně u všech jazyků, se ale uvádějí zvlášť jako hodnoty atributu ''upos'' (viz níže část [[cnk:intercorp:verze13ud#slovni_druh|Slovní druh]]) a ''feats'' (viz [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#dalsi_kategorie|Další kategorie]]). Často využívané morfologické kategorie ze seznamu ''feats'' byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni ''upos''. To se týká např. morfologického pádu a čísla (''case'', ''number''), jmenného rodu (''gender'') nebo osoby (''person''). | |
* Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[cnk:intercorp:verze13ud#vicedilne_tokeny|Vícedílné tokeny]]. | |
* U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[cnk:intercorp:verze13ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[cnk:intercorp:verze13ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[cnk:intercorp:verze13ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]). | |
* **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}}, který je popsán níže v [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]]. | |
* KonText usnadňuje **hledání** podle slovního druhu a dalších morfologických kategorií pomocí funkce ''Vložit tag'', která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků. | |
| |
| |
===== Obsah korpusu ===== | ===== Obsah korpusu ===== |
| |
Pozn. 2: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. | Pozn. 2: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. |
| |
| |
| |
===== Morfologická anotace ===== | |
| |
==== Slovní druh ==== | |
| |
* V UD se slovní druh uvádí **odděleně od dalších kategorií** jako hodnota atributu **''upos''**. | |
* Slovní druhy uvedené v ''upos'' jsou **pro všechny jazyky stejné**. | |
* Kromě ''upos'' se u většiny jazyků uvádí v atributu **''xpos''** i **jazykově specifická morfologická značka**, která je obvykle totožná s odpovídající značkou (atributem ''tag'') z jiných verzí InterCorpu bez anotace podle UD. | |
| |
^ upos ^ glosa ^ | |
| ADJ | [[ https://universaldependencies.org/u/pos/ADJ.html | přídavné jméno ]] | | |
| ADP | [[ https://universaldependencies.org/u/pos/ADP.html | adpozice – např. předložka ]] | | |
| ADV | [[ https://universaldependencies.org/u/pos/ADV.html | příslovce ]] | | |
|AUX | [[ https://universaldependencies.org/u/pos/AUX.html | pomocné sloveso ]] | | |
|CCONJ | [[ https://universaldependencies.org/u/pos/CCONJ.html | souřadicí spojka ]] | | |
|DET | [[ https://universaldependencies.org/u/pos/DET.html | determinátor – např. přivl. zájmeno ]] | | |
|INTJ | [[ https://universaldependencies.org/u/pos/INTJ.html | citoslovce ]] | | |
|NOUN | [[ https://universaldependencies.org/u/pos/NOUN.html | podstatné jméno ]] | | |
|NUM | [[ https://universaldependencies.org/u/pos/NUM.html | číslovka ]] | | |
|PART | [[ https://universaldependencies.org/u/pos/PART.html | částice ]] | | |
|PRON | [[ https://universaldependencies.org/u/pos/PRON.html | zájmeno ]] | | |
|PROPN | [[ https://universaldependencies.org/u/pos/PROPN.html | vlastní jméno ]] | | |
|PUNCT | [[ https://universaldependencies.org/u/pos/PUNCT.html | interpunkce ]] | | |
|SCONJ | [[ https://universaldependencies.org/u/pos/SCONJ.html | podřadicí spojka ]] | | |
|SYM | [[ https://universaldependencies.org/u/pos/SYM.html | symbol ]] | | |
|VERB | [[ https://universaldependencies.org/u/pos/VERB.html | sloveso ]] | | |
|X | [[ https://universaldependencies.org/u/pos/X.html | ostatní ]] | | |
| |
==== Další kategorie ==== | |
| |
* Další kategorie jsou zanořeny v atributu **''feats''**. Jejich výběr a hodnoty jsou dány slovním druhem a jazykem. | |
* Každá kategorie tvoří dvojici "název kategorie = hodnota kategorie", tedy např. ''Number=Sg''. | |
* Stejné nebo srovnatelné morfologické kategorie i jejich hodnoty se nazývají ve všech jazycích stejně. | |
* Seznam takových dvojic tvoří hodnotu atributu ''feats''. | |
* Kategorie v atributu feats jsou odděleny znakem "|". Např. u substantiva //moře// v nominativu jsou morfologické kategorie jako hodnota atributu ''feats'' uvedeny takto: ''%%Case=Nom|Gender=Neut|Number=Sing|Polarity=Pos%%''. např. ruský tvar //школы// /'ʂkolɨ/ 'školy' v genitivu singuláru je značkován takto: ''feats=%%"Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing"%%''. | |
* V pokročilém dotazu lze pomocí dotazovacího jazyka CQL jednotlivé kategorie zadávat odděleně. Např. tvar //moře// se najde na dotaz ''%%[upos="NOUN" & feats="Number=Sing"]%%''. Ruský tvar se najde na dotaz ''[upos=%%"NOUN"%% & feats=%%"Gender=Fem"%% & feats=%%"Case=Gen"%%]''. Na pořadí kategorií v dotazu nezáleží. | |
* S hodnotou atributu ''feats'' lze nakládat také pomocí regulárních výrazů jako s řetězcem znaků, např. ''[upos=%%"NOUN"%% & feats=%%".*Case=Gen.*Gender=Fem.*"%%]''. Zde musí pořadí kategorií v dotazu odpovídat jejich pořadí v korpusu. Výsledek je v obou případech stejný. | |
* Některé kategorie ze seznamu ''feats'' jsou zpřístupněny zároveň na stejné úrovni jako ''upos'' i mimo tento seznam jako tzv. **kategoriální atributy**, takže např. dotaz na substantivum v singuláru je možné zadat i jednodušeji: ''%%[upos="NOUN" & number="Sing"]%%''. Podobně i dotaz na ruský tvar vede ke stejnému výsledku jako dva výše uvedené dotazy: ''[upos=%%"NOUN"%% & %%gender="Fem"%% & %%case="Gen"%%]''. Kategoriální atributy lze využít při i pro generování frekvenčních seznamů.((Názvy kategoriálních atributů jsou z technických důvodů uvedeny s malým písmenem, např. ''verb_form'' místo ''VerbForm'' (jak je to ve ''feats'') nebo ''num_type'' místo ''NumType''. Hodnoty atributů, např. ''Fem'', si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.)) Kategoriální atributy najdete na <fc #f4a460>světle hnědém</fc> pozadí v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}} nebo v KonTextu v dolní části tabulky zobrazované v ''Zobrazení'' / ''Korpusová nastavení ...'' . | |
| |
| |
^ název kategorie ^ glosa ^ příklady hodnot ^ | |
| Abbr | [[ https://universaldependencies.org/u/feat/Abbr.html |zkratka]] |Yes | | |
| Animacy | [[ https://universaldependencies.org/u/feat/Animacy.html |životnost]] |Anim, Inan, Hum, Nhum | | |
| Aspect | [[ https://universaldependencies.org/u/feat/Aspect.html |vid]] |Imp, Perf, Hab, Iter, Prog, Prosp | | |
| Case | [[ https://universaldependencies.org/u/feat/Case.html |pád]] |Nom, Gen, Dat, Acc, Voc, Loc, Ins, ... | | |
| Definite | [[ https://universaldependencies.org/u/feat/Definite.html |určitost]] |Ind, Def, ... | | |
| Degree | [[ https://universaldependencies.org/u/feat/Degree.html |stupeň]] |Pos, Cmp, Sup, Equ, Abs | | |
| Foreign | [[ https://universaldependencies.org/u/feat/Foreign.html |cizí slovo]] |Yes | | |
| Gender | [[ https://universaldependencies.org/u/feat/Gender.html |jmenný rod]] |Fem, Masc, Neut, Com | | |
| Mood | [[ https://universaldependencies.org/u/feat/Mood.html |slovesný způsob]] |Ind, Imp, Cnd, ... | | |
| NumType | [[ https://universaldependencies.org/u/feat/NumType.html |typ číslovky]] |Card, Ord, Mult, Frac, Sets, ... | | |
| Number | [[ https://universaldependencies.org/u/feat/Number.html |morfologické číslo]] |Sing, Plur, Dual, Ptan, Coll, ... | | |
| Person | [[ https://universaldependencies.org/u/feat/Person.html |osoba]] |1, 2, 3, ... | | |
| Polarity | [[ https://universaldependencies.org/u/feat/Polarity.html |polarita]] |Neg, Pos | | |
| Polite | [[ https://universaldependencies.org/u/feat/Polite.html |zdvořilost]] |Infm, Form, Elev, Humb | | |
| Poss | [[ https://universaldependencies.org/u/feat/Poss.html |přivlastňovací tvar]] |Yes | | |
| PronType | [[ https://universaldependencies.org/u/feat/PronType.html |druh zájmena apod.]] |Prs, Rcp, Art, Int, Rel, Exc, Dem, Emp, Tot, Ind | | |
| Reflex | [[ https://universaldependencies.org/u/feat/Reflex.html |zvratný tvar]] |Yes | | |
| Tense | [[ https://universaldependencies.org/u/feat/Tense.html |slovesný čas]] |Pres, Past, Fut, Pqp, Imp | | |
| Typo | [[ https://universaldependencies.org/u/feat/Typo.html |chyba]] |Yes | | |
| VerbForm | [[ https://universaldependencies.org/u/feat/VerbForm.html |slovesný tvar]] |Fin, Inf, Part, Conv, Ger, Vnoun, Sup | | |
| Voice | [[ https://universaldependencies.org/u/feat/Voice.html |slovesný rod]] |Act, Pass, Mid, Cau, ... | | |
| |
| |
==== Vícedílné tokeny ==== | |
| |
* Některá slova, tzv. **agregáty**, se skládají z více částí. V syntaktické struktuře tyto části odpovídají různým uzlům, např. tvar //ses// se skládá z reflexiva //se// a klitického tvaru pomocného slovesa //s//, tvar //kdybych// z podřadicí spojky //kdy// a pomocného slovesa //bych//. | |
* Pravopisná podoba těchto slov je v korpusu zachována, jednotlivé části jsou oddělené jen v anotaci – např. v hodnotě atributu ''lemma'', a to znakem "|". Je tedy možné je hledat tak jako jiná slova, zadáním celého tvaru (v češtině např. //ses//, v angličtině //can't// nebo v polštině //byłbym//) do vyhledávacího rámečku v jednoduchém dotazu, nebo jako hodnotu atributu **''word''** v pokročilém dotazu pomocí vyhledávacího jazyka CQL. | |
* V některých jazycích, včetně češtiny, může mít část slova v samostatném postavení jinou podobu, např. část //s// ve slově //ses// odpovídá tvaru //jsi//. V anotaci jsou obě podoby: atribut **''iword''** uvádí původní tvar ''se|s'', atribut **''sword''** uvádí nezkrácenou, "rekonstruovanou" verzi tvaru ''se|jsi''.((Agregáty jsou v těchto jazycích: ar, ca, cs, de, el, en, es, fi, fr, he, it, pl, pt, tr a uk. Seznam všech agregátů pro daný jazyk ukáže frekvenční distribuce slovních tvarů na dotaz %%[sword=".+\|.+"]%%.)) | |
* V češtině jde např. o tyto další tvary //abychom// (''a|bychom'' – ''aby|bychom''),((Jako první uvádíme původní podobu, tedy hodnotu atributu ''iword'', jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu ''sword''. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.)) //bylas// (''byla|s'' – ''byla|jsi'') nebo //oč// (''o|č'' – ''o|co''), v angličtině //isn't// (''is|n't'' – ''is|not'') nebo //cannot// (''can|not''), v němčině //zur// (''zu|r'' – ''zu|der'') nebo //am// (''a|m'' – ''an|dem''), v polštině //miałam// (''miała|m''), //żebyś// (''że|by|ś'') nebo //chciałbym// (''chciał|by|m''), ve francouzštině //des// (''de|s'' – ''de|les''), //aux// (''au|x'' – ''à|les'') nebo //auquel// (''au|quel'' – ''à|lequel''). | |
| |
| |
===== Syntaktická anotace ===== | |
| |
==== Syntaktické funkce ==== | |
| |
* U každého tokenu je uvedena závislostní syntaktická funkce (''deprel'') a odkaz na syntakticky řídící slovo, tj. na hlavu (''head''). | |
* V níže uvedené tabulce se pro lepší orientaci rozlišují typem písma syntaktické funkce čtyř typů: | |
* Obvyklé syntaktické funkce jsou uvedeny **tučně**. | |
* Funkce určené pro pomocná slova jsou uvedeny //**tučnou kurzívou**//. | |
* Funkce umožňující zachytit v závislostní syntaktické struktuře koordinaci a podobné jevy nebo mají čistě technickou povahu jsou uvedeny //kurzívou//. | |
* Funkce, které se v češtině nevyužívají, jsou uvedeny <fc #c0c0c0>šedě</fc>. | |
* V některých jazycích mohou mít některé funkce **podtypy**. Název podtypu je uveden po dvojtečce za názvem typu, např. ''acl:relcl'' označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce [[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]]. | |
* Při zadávání dotazu na funkci, která může mít nějaký podtyp, je třeba s případným podtypem počítat. Použijeme-li v pokročilém dotazu např. výraz ''%%deprel="acl.*"%%'', najdou se nám všechna slova s funkcí ''acl'', bez ohledu na to, zda mají nebo nemají podtyp. Chceme-li najít všechna pomocná slovesa, je třeba místo pouhého ''%%deprel="aux"%%'' použít výraz ''%%deprel="aux.*"%%''. Všechny podměty najdeme výrazem ''%%deprel="nsubj.*"%%''. | |
* U koordinovaných větných členů najdeme takto jen první člen **koordinace**. Druhý a další člen je označen jako ''%%deprel="conj"%%''. Syntaktickou funkci celé koordinace lze zjistit z atributu ''deprel'' prvního členu, který je hlavou ostatních, tedy pomocí atributu ''p_deprel''. Podrobněji viz dále [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#koordinace|Koordinace]]. | |
* Seznam všech funkcí a jejich podtypů lze pro libovolný jazyk zobrazit v prohlížeči KonText. Vyberte konkrétní jazykový subkorpus, klikněte na ''Dotaz'' v horní liště a v nabídce zvolte ''Seznam slov''. V rámečku za ''Hledat podle atributu'' nastavte možnost ''deprel''. Pak klikněte dole na ''Vytvořit seznam slov''. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupce ''deprel''. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem "|". | |
| |
^ deprel ^ glosa ^ příklad((Tučně je vyznačen větný člen s danou funkcí. Pokud se tento větný člen skládá z více slov, je podtržené jeho řídící slovo. Právě u takového slova je daná funkce uvedena.)) ^ | |
| **acl** | [[https://universaldependencies.org/u/dep/acl.html | přívlastek jako finitní i nefinitní klauze, nevazebný dopolněk]] | //Mám dojem, **že bych __nepřepral__ ani hraboše**. Nikdy jsem ji neviděl **naštvanou**.// | | |
| **acl:relcl** | [[https://universaldependencies.org/u/dep/acl.html | vztažná věta ]] | //Nevěří tomu, **co __vidí__**.// | | |
| **advcl** | [[https://universaldependencies.org/u/dep/advcl.html | vedlejší věta příslovečná ]] | //Spěchal, **aby __přišel__ včas**.// | | |
| **advmod** | [[https://universaldependencies.org/u/dep/advmod.html | adverbiální příslovečné určení ]] | //**geneticky** upravené potraviny// | | |
| **advmod:emph** | [[https://universaldependencies.org/u/dep/advmod-emph.html | zdůrazňovací slovo, intensifikátor ]] | //Trvalo to **sotva** pár vteřin.// | | |
| **amod** | [[https://universaldependencies.org/u/dep/amod.html | adjektivní (shodný) přívlastek ]] | //Václav si vzal **třímilionovou** půjčku.// | | |
| **appos** | [[https://universaldependencies.org/cs/dep/appos.html | apozice (přístavek) ]] | // Přijel Michal, **můj __bratr__**. // | | |
| //**aux**// | [[https://universaldependencies.org/ru/dep/aux_.html | pomocné sloveso ]] | //Mohli **byste** přijet už příští týden? // | | |
| //**aux:pass**// | [[https://universaldependencies.org/ru/dep/aux_.html | pomocné sloveso trpného rodu ]] | //Výstrahy **byly** bohužel oslyšeny. // | | |
| //**case**// | [[https://universaldependencies.org/u/dep/case.html | předložka ]] | // Bydlím **na** samotě. // | | |
| //**cc**// | [[https://universaldependencies.org/u/dep/cc.html | souřadicí spojka ]] | // Je to mladý **a** nadějný chlapík. // | | |
| **ccomp** | [[https://universaldependencies.org/u/dep/ccomp.html | obligatorní větné doplnění ]] | //Ještě včera hlásili, **že __pršet__ nebude**.// | | |
| <fc #c0c0c0>clf</fc> | [[https://universaldependencies.org/u/dep/clf.html | klasifikátor ]] | 三**个**学生 // sān **gè** xuéshēng // | | |
| //compound// | [[https://universaldependencies.org/u/dep/compound.html | nefinální části složené číslovky ]] | //Bude to stát **padesát pět** tisíc korun.// | | |
| //conj// | [[https://universaldependencies.org/u/dep/conj.html | další člen koordinace ]] | // Teta včera večer přijela, **přespala** a **ráno zase __odjela__**.// | | |
| //**cop**// | [[https://universaldependencies.org/u/dep/cop.html | spona ]] | //Lenka **je** v kondici.// | | |
| **csubj** | [[https://universaldependencies.org/u/dep/csubj.html | větný podmět ]] | //Obžalovanému přitížilo, **že __neměl__ alibi**.// | | |
| **csubj:pass** | [[https://universaldependencies.org/u/dep/csubj-pass.html | větný podmět pasiva ]] | //Jak se pozná, **že __je__ to správně**?// | | |
| //dep// | [[https://universaldependencies.org/u/dep/dep.html | nespecifikovaná závislost ]] | //Rozhlédl se **na __druhou__**.// | | |
| //**det**// | [[https://universaldependencies.org/u/dep/det.html | determinace ]] | //**Která** kniha se vám líbí nejvíc?// | | |
| //**det:numgov**// | [[https://universaldependencies.org/u/dep/det-numgov.html | zájmenná číslovka v neshodném pádu ]] ((Rozumí se v pádu neshodném s počítaným jménem.)) | //Mimoto bylo nablízku **několik** dalších králíků.// | | |
| //**det:nummod**// | [[https://universaldependencies.org/u/dep/det-nummod.html | zájmenná číslovka ve shodném pádu ]] ((Rozumí se v pádu shodném s počítaným jménem.)) | //V městě se na **mnoha** místech objevily plameny.// | | |
| **discourse** | [[https://universaldependencies.org/cs/dep/discourse.html | diskursní výraz ]] | // čemu že se **to** zpronevěřily // | | |
| <fc #c0c0c0>dislocated</fc> | [[https://universaldependencies.org/en/dep/dislocated.html | extrapozice ]] | // **Dumplings** I like.// | | |
| //expl:pass// | [[https://universaldependencies.org/u/dep/expl-pass.html | zvratné zájmeno ve zvratném pasivu ]] | // S tím **se** nedalo nic dělat.// | | |
| //expl:pv// | [[https://universaldependencies.org/u/dep/expl-pv.html | zvratná částice u reflexiva tantum ]] | // Ona **se** občas tak legračně dívá.// | | |
| //fixed// | [[https://universaldependencies.org/u/dep/fixed.html | další části víceslovného výrazu ]] | // ve **srovnání** například **s** úvěry // | | |
| //flat// | [[https://universaldependencies.org/u/dep/flat.html | další části označení osoby ]] | // Nejlépe to vyjádřil papež **Jan** **Pavel** II. // | | |
| //flat:foreign// | [[https://universaldependencies.org/u/dep/flat-foreign.html | další části cizího víceslovného výrazu ]] | // Summum **ius**, summa **iniuria** je estetická maxima. // | | |
| //goeswith// | [[https://universaldependencies.org/u/dep/goeswith.html | další část chybně rozděleného tvaru ]] | // Zastavil se a z **těžka** oddychoval. // | | |
| **iobj** | [[https://universaldependencies.org/u/dep/iobj.html | nepřímý předmět ]] | //Vysvětlila **studentům** svůj plán.// | | |
| //list// | [[https://universaldependencies.org/u/dep/list.html | další části seznamu ]] | //Steve Jones **tel.: 555-9814 e-mail: jones@abc.edf**// | | |
| //**mark**// | [[https://universaldependencies.org/u/dep/mark.html | podřadicí spojka ]] | //Nevěděli jsme, **že** babička není doma. // | | |
| **nmod** | [[https://universaldependencies.org/u/dep/nmod.html | jmenný (neshodný) přívlastek ]] | //kancelář **ředitele**// | | |
| **nsubj** | [[https://universaldependencies.org/u/dep/nsubj.html | jmenný podmět ]] | //**Auto** je červené.// | | |
| **nsubj:pass** | [[https://universaldependencies.org/cs/dep/nsubj-pass.html | podmět věty se slovesem v trpném rodě ]] | //**__Vypnutí__ vysílačky** se trestá.// | | |
| **nummod** | [[https://universaldependencies.org/cs/dep/nummod.html | číslovka ]] | // **Jedno** kotě spalo. // | | |
| **nummod:gov** | [[https://universaldependencies.org/cs/dep/nummod-gov.html | číslovka v pádu neshodném se jménem ]] | // **Pět** mužů hrálo karty. // | | |
| **obj** | [[https://universaldependencies.org/u/dep/obj.html | přímý předmět ]] | //Cením si **vaší __pomoci__**.// | | |
| **obl** | [[https://universaldependencies.org/u/dep/obl.html | jmenné příslovečné určení ]] | //Vzduch se tetelil **__očekáváním__ blaha**. // | | |
| **obl:arg** | [[https://universaldependencies.org/cs/dep/obl.html | jmenné příslovečné určení ve funkci argumentu ]] | //Otec určitě myslel **jen na __matku__**. // | | |
| //orphan// | [[https://universaldependencies.org/u/dep/orphan.html | závislost na vypuštěném větném členu ]] | // Pavel si objednal špenát a Markéta **brokolici**. // | | |
| //parataxis// | [[https://universaldependencies.org/u/dep/parataxis.html | vsuvka, uvozovací věta ]] | // „Ten člověk,“ **__řekl__ Honza,** „odjel brzy ráno.“ // | | |
| //punct// | [[https://universaldependencies.org/u/dep/punct.html | interpunkce ]] | // Máte všecko**?** // | | |
| <fc #c0c0c0>reparandum</fc> | [[https://universaldependencies.org/u/dep/reparandum.html | oprava chyby v plynulosti řeči ]] | // Jděte dopra- **doleva**. // | | |
| **root** | [[https://universaldependencies.org/u/dep/root.html | řídící člen věty]] | // **Miluju** anglickou kuchyni. // | | |
| **vocative** | [[https://universaldependencies.org/u/dep/vocative.html | oslovení ]] | // **Honzo**, pojď mi pomoct!// | | |
| **xcomp** | [[https://universaldependencies.org/u/dep/xcomp.html | adjektivum nebo sloveso jako obligatorní doplnění s nevyjádřeným podmětem]] | //Doktorka mi doporučila **denně __cvičit__**.// | | |
| |
| |
==== Odkazy na řídící člen ==== | |
| |
* Kromě odkazu na hlavu (''head'' jako slovosledné pořadí hlavy ve větě nebo ''parent'' jako její relativní pozice vůči danému slovu) jsou u každého tokenu uvedeny i některé další atributy jeho hlavy: lemma (''p_lemma''), slovní druh (''p_upos''), morfologické kategorie (''p_feats'') a syntaktická funkce (''p_deprel''). | |
* Token může být vybaven i atributy, které specifikují vlastnosti pomocného slova, které na tokenu závisí. Např. lemma předložky je určeno atributem ''case_lemma'', morfologické kategorie pomocného slovesa atributem ''aux_feats'', morfologické kategorie spony atributem ''cop_feats'', slovní druh determinátoru atributem ''det_upos'', lemma podřadicí spojky atributem ''mark_lemma''. | |
* Podobné prostředky reprezentace syntaktické struktury používají i jiné syntakticky anotované korpusy zpřístupněné v prohlížeči KonText (např. ''syn2020''). | |
| |
==== Odkazy na pomocná slova ==== | |
| |
* Mezi pomocná slova patří podle UD pomocná slovesa, předložky, podřadicí spojky, spona, determinátory a kvantifikátory. | |
* Pomocná slova závisejí na příslušném slově významovém. | |
* Druhy pomocných slov jsou určeny svou syntaktickou funkcí, tedy hodnotou atributu ''deprel'': ''aux'' (pomocná slovesa), ''case'' (předložky), ''mark'' (podřadicí spojky), ''cop'' (spona), ''det'' (determinátor, člen) a ''clf'' (klasifikátory). | |
* Za každé pomocné slovo může být u jeho řídícího slova významového uvedeno ''lemma'', ''upos'', ''feats'' a podrobnější specifikace druhu pomocného slova ''type'', např. ''%%aux_type="pass"%%'' (viz [[https://universaldependencies.org/cs/dep/aux-pass.html|passive auxiliary]]) nebo ''%%det_type="numgov"%%'' (viz [[https://universaldependencies.org/cs/dep/det-numgov.html|pronominal quantifier governing the case of the noun]]). | |
* Názvy příslušných atributů významového slova se skládají z funkce a atributu pomocného slova. Např. ''case_lemma'' specifikuje u substantiva nebo zájmena lemma předložky, ''aux_feats'' u slovesa významového specifikuje morfologické kategorie pomocného slovesa. | |
* Na jednom významovém slově může záviset více slov pomocných, např. u minulého kondicionálu i tři (//byl bych býval **zůstal** doma//). V příslušném atributu se pak objeví hodnoty ze všech pomocných slov, oddělené znakem "''|''". Hodnoty atributu ''feats'' od více pomocných sloves závislých na jednom významovém se spojí do jedné hodnoty, kde se některé kategorie, např. specifikace slovesného tvaru, mohou opakovat, protože pocházejí od více než jednoho tvaru. Např. ve větě //kdo by to byl **tušil**// se ''aux_feats'' významového slovesa //tušil// skládá z ''feats'' pomocných sloves //by// (''%%Mood=Cnd|VerbForm=Fin%%'') a //byl// (''%%Animacy=Anim|Gender=Masc|Number=Sing|Polarity=Pos|Tense=Past|VerbForm=Part|Voice=Act%%''). | |
| |
==== Koordinace ==== | |
| |
* První člen koordinace závisí na hlavě celé koordinace. Jeho syntaktická funkce určuje syntaktickou funkci celé koordinace. | |
* Druhý a další člen koordinace závisí vždy na prvním členu koordinace. Jejich syntaktická funkce je určena jako ''conj''. | |
* Spojka závisí na následujícím členu koordinace. Její syntaktická funkce je ''cc''. | |
* K identifikaci hlavy bez ohledu na to, zda je token členem koordinace nebo zda je v ní na prvním nebo některém dalším místě, slouží odkaz na tzv. efektivní hlavu: atribut ''e_id'' odkazuje na její identifikátor (pořadové číslo tokenu představujícího hlavu v rámci věty), atribut ''eparent'' na její relativní pozici vůči danému tokenu. | |
* Chceme-li vyhledat všechna slova s určitou syntaktickou funkcí, včetně těch, které jsou součástí koordinace, můžeme využít atribut ''p_deprel'', který ukazuje syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny nepřímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (%%|%%) takto: ''%%[deprel="obj" | deprel="conj" & p_deprel="obj"]%%''. | |
| |
===== UD a KonText ===== | |
| |
==== Hledání v korpusu ==== | |
| |
=== Jednoduchý dotaz === | |
| |
* Jednoduchý dotaz na slovní tvar nebo slovní spojení se zadává stejně jako v předchozích verzích InterCorpu.((V jednoduchém dotazu už není třeba v některých jazycích oddělovat mezerou části agregátu, např. části //był//, //by// a //m// polského aglutinovaného tvaru //byłbym// nebo //is// a //n't// anglické spřežky //isn't//, a to ani při zadání delšího výrazu (//aren't I//). Při jednoduchém dotazu na //is// nebo //n't// se ale konkordance se spřežkou //isn't// neukážou.)) | |
| |
=== Dotaz na lemma a morfologickou značku (tag) === | |
| |
* Stejně jako v předchozích verzích InterCorpu lze v pokročilém dotazu zadat lemma a morfologickou značku (tag). U většiny lingvisticky anotovaných jazyků (výjimkou jsou be, da, en, fr, hu, no a ru) je možné zadat značku z jazykově specifické sady (národního tagsetu), obvykle totožné se sadou z předchozích verzí InterCorpu pro daný jazyk. Jen je třeba místo atributu ''tag'' použít atribut ''xpos'' (u jazyků be, da, en, fr, hu, no a ru tento atribut chybí). Např. dotaz na substantiva ženského rodu ve vokativu singuláru v češtině lze tímto způsobem zadat takto: ''%%[xpos="NNFS5.*"]%%''. | |
* Slovní druh a morfologické kategorie se podle UD uvádějí zvlášť jako hodnoty atributů ''upos'' a ''feats''. Jejich hodnoty lze zadat pomocí funkce ''Vložit tag''. | |
* Slovní druhy (''upos'') jsou stejné pro všechny jazyky. Např. dotaz na vlastní jména lze i bez využití funkce ''Vložit tag'' zadat takto: %%[upos="PROPN"]%%. | |
* Další morfologické kategorie jsou uvedeny v atributu ''feats'' nebo samostatně jako kategoriální atributy. Podrobněji výše viz [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#dalsi_kategorie|Další kategorie]]. | |
| |
=== Zadávání dotazu na slovní druh a morfologické kategorie pomocí nabídky === | |
| |
* Při zadávání pokročilého dotazu lze využít funkci ''Vložit tag'', která umožňuje ve všech lingvisticky anotovaných jazycích vybrat podle nabídky slovní druh a/nebo hodnoty příslušných kategorií (vlastností) ze seznamu ''feats''. Nabídka vlastností se u daného slovního druhu řídí jejich reálným výskytem v korpusu, takže může odrážet i chybné kombinace. | |
| |
=== Dotaz na syntaktickou funkci === | |
| |
* Syntaktická funkce se u každého tokenu uvádí jako hodnota atributu ''deprel'' (viz [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#syntakticke_funkce|Syntaktické funkce]]). | |
* Např. dotaz, který má ukázat výskyty slovesa //běhat// ve funkci řídícího členu přívlastkové věty, se zadává jako ''%%[lemma="běhat" & deprel="acl"]%%''. Mezi výsledky najdeme např. větu //Copak máme čas **běhat** každý den pro vodu se dždánem ke studni nebo chodit do potoka?// nebo //Vlk musel uznat, že ještě nikdy za celou tu dobu, co **běhá** po lese a po polích, neviděl nic tak roztomilého.//((Tvar //běhajících// ve větě //Potom uslyšeli zvuk velkého množství tlap a drápů, **běhajících** po jižní straně rokle.// ale najdeme na dotaz ''%%[lemma="běhající" & deprel="amod"]%%''.)) | |
| |
| |
==== Výsledky dotazu ==== | |
=== Formátovaný text === | |
| |
* Po kliknutí na klíčové slovo a ''Formátovaný text'' v záhlaví kontextového rámečku se objeví konkordance spolu s nejbližším kontextem v podobě, která se blíží původní typografii textu. Nejsou v ní např. mezery mezi koncem slova a interpunkcí a odstavce jsou odděleny prázdným řádkem. | |
| |
=== Zobrazení syntaktické struktury === | |
| |
* Po kliknutí na ikonku syntaktické struktury na začátku řádky každé konkordance se zobrazí syntaktická struktura věty. U každého uzlu je uveden slovní tvar (hodnota atributu ''word''), slovní druh a syntaktická funkce slova, které k danému tokenu patří. Po kliknutí na daný uzel se objeví další anotace, zejména lemma daného tvaru. | |
* Vícedílné tokeny jsou rozděleny do více uzlů a slovní tvar pak odpovídá příslušné části tokenu (atributu ''iword''). Např. token //oč// je rozdělen na části //o// a //č//. Po kliknutí na takový uzel (např. na //č//) se kromě lemmatu dané části vícedílného tokenu (//co//) objeví i její plná podoba (jako samostatné slovo, atribut ''sword'', zde opět //co//) a slovní tvar celého tokenu (''word'', zde //oč//). | |
* V textové řádce nad strukturou i ve struktuře se pod kurzorem paralelně zvýrazňují relevantní řetězce a uzly. | |
| |
==== Příklady dotazů ==== | |
| |
Dotazy ukazují zejména možnosti využití syntaktických funkcí ve spojení se slovními druhy a morfologickými kategoriemi, ale obsahují také odkazy na syntakticky řídící členy a závislá pomocná slova. Většina dotazů se týká češtiny, ale jsou použitelné i v jiných jazycích. Typ jazyka může vyžadovat menší či větší úpravy dotazu. Dotazy lze zadávat v jednom jazyce, nebo paralelně ve dvou i více jazycích. | |
| |
=== Kdo nejčastěji zpívá? === | |
| |
<code>[deprel="nsubj" & p_lemma="zpívat"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~3eWQwKYCGwSw|Tento dotaz]] hledá podměty slovesa zpívat. Najde např. větu //Vaše **sestřenice** zpívá opravdu krásně.// | |
* Nejčastější lexémy ve funkci podmětu slovesa //zpívat// zjistíme z frekvenční distribuce podle lemmat klíčového slova (v menu KonTextu: ''%%Frekvence / Lemmata%%''). | |
| |
=== Co dělají ptáci nejčastěji? === | |
| |
<code>[deprel="nsubj" & lemma="pták"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~WwowOEw4Uss6|Tento dotaz]] hledá tvary lexému //pták// ve funkci podmětu. Najde např. větu //Několik **ptáků** znechuceně odletělo.// | |
* Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'' (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%''). | |
| |
| |
=== Předložkové pády === | |
| |
<code>[case="Acc" & case_lemma="o"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~w4OmGg4oSYkq|Tento dotaz]] najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce //o// (lemma závislého pomocného slova se syntaktickou funkcí ''case'' je //o//). | |
* Najdeme tak např. větu //Dědovy holínky **pleskaly** o dlaždičky.// | |
* Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit. | |
* Nejčastější lexémy řídícího slovesa předložkového pádu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'', tedy lemmatu hlavy daného tokenu (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%''). | |
| |
| |
=== Přímé předměty v dativu, i v koordinaci === | |
| |
<code>[case="Dat" & deprel="obj" | case="Dat" & deprel="conj" & p_deprel="obj"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~3wGKQkuy2kE6|Tento dotaz]] najde přímé předměty v dativu, i když jsou součástí koordinace, např. ve větě //Chytil chřipku, **které** v novinách říkali "ruská".// nebo //Není jiná možnost, než je ukrást **mamce**, jejímu **manželovi** a **babičce**.// | |
* U koordinovaných předmětů je každý z nich v samostatné konkordanci. | |
* Buď je v dativu s funkcí přímého předmětu klíčové slovo (''%%case="Dat" & deprel="obj"%%''), nebo má klíčové slovo v dativu (''%%case="Dat"%%'') funkci ''conj'' (''%%deprel="conj"%%'') a závisí na uzlu s funkcí přímého předmětu (''%%p_deprel="obj"%%''). To znamená, že je druhým nebo dalším členem koordinace, která má celá funkci ''obj''. | |
| |
| |
=== Vlastní jména jako podmět, i v koordinaci === | |
| |
<code>[deprel="nsubj" & upos="PROPN" | deprel="conj" & p_deprel="nsubj" & upos="PROPN"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~NQYQAU0ma42U|Tento dotaz]] najde vlastní jména ve funkci podmětu, i když jsou součástí koordinace. | |
* Např. ve větě //**Evropa** a **Japonsko** se v mnohém cítí stejně ukřivděně jako Trump.// se ve výsledcích objeví Evropa i Japonsko. | |
| |
| |
=== Předměty infinitivu v instrumentálu === | |
| |
<code>[upos="NOUN" & case="Ins" & deprel="obj" & p_feats="VerbForm=Inf"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~y26oqmWYeu8c|Tento dotaz]] najde substantiva v instrumentálu ve funkci přímého předmětu infinitivu, např. ve větě //snažil se ji potěšit **dárky**//. | |
* Lexémy infinitivu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'', tedy lemmatu hlavy klíčového slova (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%''). | |
| |
=== Slovesa v 1. osobě singuláru minulého času === | |
| |
<code>[feats="Gender=Neut" & feats="Number=Sing" & feats="Tense=Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~LcWkUGq2isYU|Tento dotaz]] najde l-ová příčestí pro minulý čas ve tvaru neutra singuláru s pomocným slovesem v první osobě, např. ve větě //"To jsem rádo," řeklo Prasátko, "že jsem ti **dalo** něco, co se dá uložit do užitečné nádoby."// | |
* UD v češtině u l-ového příčestí nerozlišuje, zda jde o tvar minulého času nebo podmiňovacího způsobu, v obou případech je ve ''feats'' údaj ''Tense=Past''. Proto je třeba v dotazu uvést kromě osoby pomocného slovesa ''%%aux_feats="Person=1"%%'' i jeho způsob: ''%%aux_feats="Mood=Ind"%%''. | |
* Dotaz na příčestí byl zadán pomocí funkce ''Vložit tag'', která do dotazu vkládá specifikace ze seznamu ''feats''. | |
* Stejný výsledek dostaneme i [[https://www.korpus.cz/kontext/view?q=~lQWaCsgiOSOa|následujícím dotazem]], který využívá kategoriální atributy mimo feats: | |
| |
<code>[gender="Neut" & number="Sing" & tense="Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]</code> | |
| |
=== Konstrukce akuzativu s infinitivem === | |
| |
<code>1:[lemma="vidět|slyšet"] []* 2:[case="Acc" & deprel="obj"] []* 3:[verb_form="Inf" & deprel="xcomp"] & 2.head=1.id & 3.head=1.id within <s/></code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~TWA2eGuSO26c|Tento dotaz]] najde věty se slovesy //vidět// nebo //slyšet//, na nichž závisí přímý předmět v akuzativu a infinitiv ve funkci ''xcomp''. Mezi těmito tokeny může být libovolný počet jiných slov, ale jen v rámci jedné věty, např. ve větě //Ale byl sám a **slyšel mladíkovy kroky stoupat** po schodech.// | |
* Dotaz obsahuje tzv. [[https://wiki.korpus.cz/doku.php/kurz:pokrocile_dotazy?s[]=globáln%C3%AD#shoda_a_neshoda_atributu|globální podmínku]], která v tomto dotazu specifikuje syntaktické závislosti mezi třemi očíslovanými tokeny. | |
* Výraz ''%%2.head=1.id%%'' zajišťuje, že předmět závisí na daných slovesech (odkaz na hlavu předmětu musí mít stejnou hodnotu jako identifikátor slovesa //vidět// nebo //slyšet//). Výraz ''%%3.head=1.id%%'' pak zajišťuje, že na daných slovesech závisí také infinitiv. | |
| |
=== Minulý kondicionál v činném rodě === | |
| |
<code>[voice="Act" & aux_feats="Mood=Cnd" & aux_feats="Tense=Past"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~jAkKq2Ei6oY6|Tento dotaz]] najde věty se slovesem v rodě činném a podmiňovacím způsobu minulém, tedy např. větu //Kdo by to byl **tušil**, ...// | |
* U významového slovesa stačí údaj o činném rodě ''%%voice="Act"%%'', slovesný tvar (l-ové příčestí) je určen tím, že na slovese má záviset kondicionálový auxiliár //by// (''%%aux_feats="Mood=Cnd"%%''). | |
* Další výraz (''%%aux_feats="Tense=Past"]%%'') se týká druhého pomocného slovesa //byl//. Hodnoty ''feats'' obou pomocných sloves jsou atributu ''aux_feats'' spojeny do jedné (viz výše [[cnk:intercorp:verze13ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]). | |
* Dotaz najde i věty typu //Kdybych to byl **tušil**, ...//, přestože se může zdát, že věta kondicionálový auxiliár neobsahuje. Token //kdybych// je však rozdělen na podřadicí spojku //kdy// a pomocné sloveso //bych//, jehož kategorie se promítnou do anotace významového slovesa podobně jako kategorie tvaru //by//, tedy včetně specifikace ''%%Mood=Cnd%%''. | |
| |
=== Minulý kondicionál v trpném rodě === | |
| |
<code>[voice="Pass" & aux_feats="Mood=Cnd" & aux_feats=".*Tense=Past.*Tense=Past.*"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~uSIiCIoGCi6g|Tento dotaz]] najde věty se slovesem v rodě trpném a podmiňovacím způsobu minulém, tedy např. větu //... aféra by byla bývala **ututlána**.// | |
* Sloveso ve tvaru opisného pasiva má adjektivní lemma, tedy např. //ututlaný//, slovní druh ''upos=ADJ'' a morfologické kategorie ''%%feats="...Variant=Short|VerbForm=Part|Voice=Pass"%%''.((Reflexivní pasivum, např. tvar //oholil se//, je označeno jako ''%%feats="...Voice=Act"%%''.)) | |
* Hodnoty atributu ''feats'' od více pomocných sloves závislých na jednom významovém jsou spojené do jedné hodnoty, kde se např. specifikace kategorie času může opakovat, protože pochází od více než jednoho tvaru. V tomto případě od dvou pomocných sloves //byla// a //bývala//. Právě toho využívá tento dotaz. | |
* Pokud bychom při dotazu na trpný rod uvedli pouze ''%%[aux_feats="Tense=Past"]%%'', dostali bychom i tvary podmiňovacího způsobu přítomného, v němž se l-ové příčestí objevuje pouze jednou jako pomocné sloveso trpného rodu (//... aféra by byla **ututlána**.//) | |
| |
=== Negace významového slovesa, vyjádřená také negací slovesa pomocného === | |
| |
<code>[upos="VERB" & deprel!="aux" & (polarity="Neg" | aux_feats="Polarity=Neg")]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~LEMQ2YG2QC0k|Tento dotaz]] najde významová slovesa s prefixem //ne-// nebo s pomocným slovesem, které má tento prefix, např. //... zase tak moc jsem od tebe **nechtěla**; nebudu **dělat** nic//. | |
* Významové sloveso, jehož syntaktická funkce není ''aux'' (''%%deprel!="aux"%%'') je buď negované samo (''%%polarity="Neg"%%''), nebo je negované jeho pomocné sloveso (''%%aux_feats="Polarity=Neg"%%''). | |
| |
=== Průběhové perfektum v angličtině === | |
| |
<code>[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part"]</code> | |
| |
* [[https://www.korpus.cz/kontext/view?q=~pIOs8ciQiOiW|Tento dotaz]] najde věty se slovesem v průběhovém perfektu (přítomném i minulém), např. //... has been constantly **increasing** in velocity//. | |
* Specifikace ''VerbForm=Fin'' se týká pomocného slovesa //has// a ''VerbForm=Part'' druhého pomocného slovesa //been//. Oba výrazy jsou součástí jedné hodnoty atributu ''aux_feats''. | |
* Chceme-li najít pouze tvary minulého průběhového perfekta, nestačí přidat ''%%aux_feats="Tense=Past"%%'', protože tento údaj obsahuje i pomocné sloveso //been//. K zadání hodnoty ''aux_feats'' je tedy třeba použít regulární výraz, stejně jako v českém příkladu [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#minuly_kondicional_v_trpnem_rode|Minulý kondicionál v trpném rodě]], viz [[https://www.korpus.cz/kontext/view?q=~xwygg8mKKcac|následující dotaz]]:((Ani ten však nevyloučí případy jako //might have been **dwelling**//, kde je údaj ''Tense=Past'' uveden u tvaru //might//.)) | |
| |
<code>[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats=".*Tense=Past.*Tense=Past.*"]</code> | |
| |
* Naopak k vyhledání pouze přítomných tvarů průběhové perfekta stačí přidat výraz ''%%aux_feats="Tense=Pres"%%'', který se v ''aux_feats'' vyskytuje jen jednou, a to u finitního tvaru pomocného slovesa //have//, viz [[https://www.korpus.cz/kontext/view?q=~l4SQWCSyeGKg|následující dotaz]]: | |
| |
<code>[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats="Tense=Pres"]</code> | |
| |
| |
| |
===== Legenda k seznamu atributů ===== | |
| |
* V {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}} jsou pod sebou všechny atributy v korpusu. | |
* Ve sloupcích je uvedeno, zda je atribut využit pro jazyk určený zkratkou v záhlaví. | |
* Atributy jsou rozděleny do čtyř kategorií, odlišených barvou pozadí. | |
| |
==== Základní atributy ==== | |
| |
* Těchto 12 atributů je na <fc #dda0dd>světle fialovém</fc> pozadí. | |
* Obsahují tyto údaje: slovní tvar, lemma, slovní druh, morfologické kategorie, pořadí tokenu ve větě, odkaz na hlavu a syntaktická funkce. | |
* Většinou jsou převzaty přímo z výstupu nástroje [[https://ufal.mff.cuni.cz/udpipe|UDPipe]], který je ve formátu [[https://universaldependencies.org/format.html|CoNLL-U]]. | |
* Přidané jsou atributy ''lc'' a ''lc_lemma'', které půodobně jako v jiných korpusech ČNK opakují slovní tvar a lemma, ale bez případných velkých písmen. | |
* U jazyků s vícedílnými tokeny (agregáty) jsou navíc také atributy ''sword'' a ''iword''. | |
* Atribut ''sword'' uvádí slovní tvar agregátu rozdělený znakem "|" na části, které odpovídají syntaktickým slovům v podobě samostatného slova, tedy např. u tokenu //nač// nebo //abychom// je hodnota ''sword'' rovna ''na|co'' nebo ''aby|bychom''. | |
* Atribut ''iword'' dělí agregát na části bez dalších úprav, u tokenu //nač// nebo //abychom// je hodnota ''iword'' rovna ''na|č'' nebo ''a|bychom''. | |
| |
==== Strukturní atributy ==== | |
| |
* Těchto 7 atributů je na <fc #6495ed>světle modrém</fc> pozadí. | |
* Rozšiřují odkaz na syntaktickou hlavu tokenu (''head'') o další atributy, usnadňující identifikaci hlavy a orientaci v jejích vlastnostech, např. na její lemma (''p_lemma''), slovní druh (''p_upos'') nebo syntaktickou funkci (''p_deprel''). | |
* Atributy tohoto typu jsou v plném počtu u všech jazyků. | |
| |
==== Atributy pomocných slov ==== | |
| |
* Tyto atributy jsou na <fc #9acd32>světle zeleném</fc> pozadí. | |
* Uvádějí se u významového slova s cílem specifikovat podstatné vlastnosti závislého slova pomocného. | |
* Je jejich celkem 20, ale žádný jazyk nevyužívá všechny. | |
* Atributy se týkají 6 druhů pomocných slov, určených jejich syntaktickou funkcí ve vztahu ke slovu významovému, např. pomocných sloves (''aux''), předložek (''case'') nebo podřadicích spojek (''mark''). | |
* U každého pomocného slova lze uvést lemma, slovní druh, morfologické kategorie a podtyp pomocného slova. | |
* Název atributu se skládá z názvu syntaktické funkce pomocného slova a názvu jeho vlastnosti (atributu), např. ''case_lemma'' je název atributu pro lemma předložky. | |
* Nevyužité nebo málo informativní atributy, vytvořené kombinací funkce a vlastnosti pomocného slova, v daném jazyce nejsou. V žádném jazyce se nevyskytují čtyři z možných kombinací. | |
* Nejvíc jazyků (35) využívá atribut ''case_lemma'' (lemma adpozice, nejčastěji předložky), následuje ''mark_lemma'' (lemma podřadicí spojky, v 33 jazycích). | |
* Atribut ''clf_lemma'' (lemma klasifikátoru) se objevuje jen v čínštině. | |
* Je-li u významového slova více pomocných stejného druhu (např. více pomocných sloves u minulého kondicionálu), jsou jejich hodnoty odděleny znakem "|". | |
| |
==== Atributy vybraných kategorií ==== | |
| |
* Na <fc #f4a460>světle hnědém</fc> pozadí je výběr 18 atributů z morfologických kategorií (''feats''). | |
* Jen lotyština využívá všechny, naopak maltština žádný. Kromě typu jazyka záleží i na dostupnosti kategorie v datech UD. | |
| |
| |
===== Chyby a nedostatky lingvistické anotace podle UD ===== | |
| |
* Slovní druh (''upos'') a morfologické kategorie (''feats'') někdy nejsou v souladu. | |
* Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně. | |
* Chyby a nedůslednosti v daném jazyce (např. //udělals// jako jednodílný token). | |
| |
Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci. | |
| |
Uživatelům budeme vděční za každou nahlášenou chybu, nesrovnalost, nedostatek, připomínku a námět na adrese [[https://podpora.korpus.cz/projects/paralelni-korpus-intercorp|Uživatelské podpory ČNK]]. | |
V tématu zprávy uveďte prosím na začátku zkratku "UD". | |
| |
| |
</WRAP> | </WRAP> |
| |
===== Odkazy ===== | |
| |
==== Výběr literatury k UD ==== | |
| |
Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): [[https://doi.org/10.1162/coli_a_00402|Universal Dependencies]]. In: //Computational Linguistics//, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308. | |
| |
Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): [[https://drops.dagstuhl.de/opus/volltexte/2021/15591/pdf/dagrep_v011_i007_p089_21351.pdf|Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics]]. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89 | |
| |
Daniel Zeman (2018): [[https://ufal.mff.cuni.cz/books/2018-zeman|The World of Tokens, Tags and Trees]]. ISBN 978-80-88132-09-7. | |
| |
Úplný seznam najdete [[https://universaldependencies.org/introduction.html#ud-related-publications|zde]]. | |
| |
==== Tutoriály a přednášky o UD ==== | |
| |
Daniel Zeman: [[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|Universal Dependencies and the Slavic Languages]]. Warszawa, 19.11.2018. | |
| |
Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: [[http://universaldependencies.org/eacl17tutorial/adding.pdf|Tutorial on Universal Dependencies: Adding a new language to UD]] | |
| |
Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=475|Coreference meets Universal Dependencies]]. Praha, 19/04/2021. | |
| |
Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=421|Reflexives in Universal Dependencies]]. Praha, 04/03/2019. | |
| |
==== O korpusu InterCorp s anotací podle UD ==== | |
| |
Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. | |
[[https://sdileni.korpus.cz/s/JwtY7fTcoDdbcse|Video]], pdf: [[https://owncloud.korpus.cz/s/JfKWHCecnG7nCEt|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/pYwKr57QRNyfCx2|zážitky uživatelů]]. | |
| |
==== Viz též ==== | ==== Viz též ==== |