AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:ud [2022/08/12 18:39] – [Universal Dependencies – UD] Alexandr Rosenpojmy:ud [2024/02/19 18:15] (aktuální) – [O korpusu InterCorp s anotací podle UD] Alexandr Rosen
Řádek 8: Řádek 8:
   * syntaktických funkcí ([[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]])   * syntaktických funkcí ([[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]])
  
-Specifika verzí paralelního korpusu InterCorp anotovaných podle UD: +Hlavní specifika verzí InterCorpu anotovaných podle UD: 
-  * **Slovní druh** a **morfologické kategorie** podle UD, označované jednotně u všech jazyků, se uvádějí zvlášť jako hodnoty atributu ''upos'' (viz níže část [[cnk:intercorp:verze13ud#slovni_druh|Slovní druh]]) a ''feats'' (viz [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#dalsi_kategorie|Další kategorie]]). Často využívané morfologické kategorie ze seznamu ''feats'' byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni ''upos''. To se týká např. morfologického pádu a čísla (''case'', ''number''), jmenného rodu (''gender'') nebo osoby (''person''). +  * **Slovní druh** a **morfologické kategorie** podle UD, označované jednotně u všech jazyků, se uvádějí zvlášť jako hodnoty atributu ''upos'' (viz níže část [[pojmy:ud#slovni_druh|Slovní druh]]) a ''feats'' (viz [[https://wiki.korpus.cz/doku.php/pojmy:ud#dalsi_kategorie|Další kategorie]]). Často využívané morfologické kategorie ze seznamu ''feats'' byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni ''upos''. To se týká např. morfologického pádu a čísla (''case'', ''number''), jmenného rodu (''gender'') nebo osoby (''person''). 
-  * Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[cnk:intercorp:verze13ud#vicedilne_tokeny|Vícedílné tokeny]]. +  * Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[pojmy:ud#vicedilne_tokeny|Vícedílné tokeny]]. 
-  * U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[cnk:intercorp:verze13ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[cnk:intercorp:verze13ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[cnk:intercorp:verze13ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]). +  * U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[pojmy:ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[pojmy:ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[pojmy:ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]). 
-  * **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}}, který je popsán níže v [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]]. +  * **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}}, který je popsán níže v [[https://wiki.korpus.cz/doku.php/pojmy:ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]]. 
   * KonText usnadňuje **hledání** podle slovního druhu a dalších morfologických kategorií pomocí funkce ''Vložit tag'', která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků.   * KonText usnadňuje **hledání** podle slovního druhu a dalších morfologických kategorií pomocí funkce ''Vložit tag'', která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků.
- 
  
 ===== Morfologická anotace ===== ===== Morfologická anotace =====
Řádek 86: Řádek 85:
   * V češtině jde např. o tyto další tvary //abychom// (''a|bychom'' – ''aby|bychom''),((Jako první uvádíme původní podobu, tedy hodnotu atributu ''iword'', jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu ''sword''. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.)) //bylas// (''byla|s'' – ''byla|jsi'') nebo //oč// (''o|č'' – ''o|co''), v angličtině //isn't// (''is|n't'' – ''is|not'') nebo //cannot// (''can|not''), v němčině //zur// (''zu|r'' – ''zu|der'') nebo //am// (''a|m'' – ''an|dem''), v polštině //miałam// (''miała|m''), //żebyś// (''że|by|ś'') nebo //chciałbym// (''chciał|by|m''), ve francouzštině //des// (''de|s'' – ''de|les''), //aux// (''au|x'' – ''à|les'') nebo //auquel// (''au|quel'' – ''à|lequel'').   * V češtině jde např. o tyto další tvary //abychom// (''a|bychom'' – ''aby|bychom''),((Jako první uvádíme původní podobu, tedy hodnotu atributu ''iword'', jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu ''sword''. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.)) //bylas// (''byla|s'' – ''byla|jsi'') nebo //oč// (''o|č'' – ''o|co''), v angličtině //isn't// (''is|n't'' – ''is|not'') nebo //cannot// (''can|not''), v němčině //zur// (''zu|r'' – ''zu|der'') nebo //am// (''a|m'' – ''an|dem''), v polštině //miałam// (''miała|m''), //żebyś// (''że|by|ś'') nebo //chciałbym// (''chciał|by|m''), ve francouzštině //des// (''de|s'' – ''de|les''), //aux// (''au|x'' – ''à|les'') nebo //auquel// (''au|quel'' – ''à|lequel'').
  
-===== Syntaktická anotace ======+===== Syntaktická anotace =====
  
 ==== Syntaktické funkce ==== ==== Syntaktické funkce ====
Řádek 98: Řádek 97:
   * V některých jazycích mohou mít některé funkce **podtypy**. Název podtypu je uveden po dvojtečce za názvem typu, např. ''acl:relcl'' označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce [[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]].    * V některých jazycích mohou mít některé funkce **podtypy**. Název podtypu je uveden po dvojtečce za názvem typu, např. ''acl:relcl'' označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce [[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]]. 
   * Při zadávání dotazu na funkci, která může mít nějaký podtyp, je třeba s případným podtypem počítat. Použijeme-li v pokročilém dotazu např. výraz ''%%deprel="acl.*"%%'', najdou se nám všechna slova s funkcí ''acl'', bez ohledu na to, zda mají nebo nemají podtyp. Chceme-li najít všechna pomocná slovesa, je třeba místo pouhého ''%%deprel="aux"%%'' použít výraz ''%%deprel="aux.*"%%''. Všechny podměty najdeme výrazem ''%%deprel="nsubj.*"%%''.   * Při zadávání dotazu na funkci, která může mít nějaký podtyp, je třeba s případným podtypem počítat. Použijeme-li v pokročilém dotazu např. výraz ''%%deprel="acl.*"%%'', najdou se nám všechna slova s funkcí ''acl'', bez ohledu na to, zda mají nebo nemají podtyp. Chceme-li najít všechna pomocná slovesa, je třeba místo pouhého ''%%deprel="aux"%%'' použít výraz ''%%deprel="aux.*"%%''. Všechny podměty najdeme výrazem ''%%deprel="nsubj.*"%%''.
-  * U koordinovaných větných členů najdeme takto jen první člen **koordinace**. Druhý a další člen je označen jako ''%%deprel="conj"%%''. Syntaktickou funkci celé koordinace lze zjistit z atributu ''deprel'' prvního členu, který je hlavou ostatních, tedy pomocí atributu ''p_deprel''. Podrobněji viz dále [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#koordinace|Koordinace]].+  * U koordinovaných větných členů najdeme takto jen první člen **koordinace**. Druhý a další člen je označen jako ''%%deprel="conj"%%''. Syntaktickou funkci celé koordinace lze zjistit z atributu ''deprel'' prvního členu, který je hlavou ostatních, tedy pomocí atributu ''p_deprel''. Podrobněji viz dále [[https://wiki.korpus.cz/doku.php/pojmy:ud#koordinace|Koordinace]].
   * Seznam všech funkcí a jejich podtypů lze pro libovolný jazyk zobrazit v prohlížeči KonText. Vyberte  konkrétní jazykový subkorpus, klikněte na ''Dotaz'' v horní liště a v nabídce zvolte ''Seznam slov''. V rámečku za ''Hledat podle atributu'' nastavte možnost ''deprel''. Pak klikněte dole na ''Vytvořit seznam slov''. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupce ''deprel''. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem "|".   * Seznam všech funkcí a jejich podtypů lze pro libovolný jazyk zobrazit v prohlížeči KonText. Vyberte  konkrétní jazykový subkorpus, klikněte na ''Dotaz'' v horní liště a v nabídce zvolte ''Seznam slov''. V rámečku za ''Hledat podle atributu'' nastavte možnost ''deprel''. Pak klikněte dole na ''Vytvořit seznam slov''. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupce ''deprel''. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem "|".
  
Řádek 188: Řádek 187:
   * Slovní druh a morfologické kategorie se podle UD uvádějí zvlášť jako hodnoty atributů ''upos'' a ''feats'' Jejich hodnoty lze zadat pomocí funkce ''Vložit tag''.   * Slovní druh a morfologické kategorie se podle UD uvádějí zvlášť jako hodnoty atributů ''upos'' a ''feats'' Jejich hodnoty lze zadat pomocí funkce ''Vložit tag''.
   * Slovní druhy (''upos'') jsou stejné pro všechny jazyky. Např. dotaz na vlastní jména lze i bez využití funkce ''Vložit tag'' zadat takto: %%[upos="PROPN"]%%.   * Slovní druhy (''upos'') jsou stejné pro všechny jazyky. Např. dotaz na vlastní jména lze i bez využití funkce ''Vložit tag'' zadat takto: %%[upos="PROPN"]%%.
-  * Další morfologické kategorie jsou uvedeny v atributu ''feats'' nebo samostatně jako kategoriální atributy. Podrobněji výše viz [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#dalsi_kategorie|Další kategorie]]. +  * Další morfologické kategorie jsou uvedeny v atributu ''feats'' nebo samostatně jako kategoriální atributy. Podrobněji výše viz [[https://wiki.korpus.cz/doku.php/pojmy:ud#dalsi_kategorie|Další kategorie]]. 
  
 === Zadávání dotazu na slovní druh a morfologické kategorie pomocí nabídky === === Zadávání dotazu na slovní druh a morfologické kategorie pomocí nabídky ===
Řádek 196: Řádek 195:
 === Dotaz na syntaktickou funkci === === Dotaz na syntaktickou funkci ===
  
-  * Syntaktická funkce se u každého tokenu uvádí jako hodnota atributu ''deprel'' (viz  [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#syntakticke_funkce|Syntaktické funkce]]).+  * Syntaktická funkce se u každého tokenu uvádí jako hodnota atributu ''deprel'' (viz  [[https://wiki.korpus.cz/doku.php/pojmy:ud#syntakticke_funkce|Syntaktické funkce]]).
   * Např. dotaz, který má ukázat výskyty slovesa //běhat// ve funkci řídícího členu přívlastkové věty, se zadává jako ''%%[lemma="běhat" & deprel="acl"]%%''. Mezi výsledky najdeme např. větu //Copak máme čas **běhat** každý den pro vodu se dždánem ke studni nebo chodit do potoka?// nebo //Vlk musel uznat, že ještě nikdy za celou tu dobu, co **běhá** po lese a po polích, neviděl nic tak roztomilého.//((Tvar //běhajících// ve větě //Potom uslyšeli zvuk velkého množství tlap a drápů, **běhajících** po jižní straně rokle.// ale najdeme na dotaz ''%%[lemma="běhající" & deprel="amod"]%%''.))   * Např. dotaz, který má ukázat výskyty slovesa //běhat// ve funkci řídícího členu přívlastkové věty, se zadává jako ''%%[lemma="běhat" & deprel="acl"]%%''. Mezi výsledky najdeme např. větu //Copak máme čas **běhat** každý den pro vodu se dždánem ke studni nebo chodit do potoka?// nebo //Vlk musel uznat, že ještě nikdy za celou tu dobu, co **běhá** po lese a po polích, neviděl nic tak roztomilého.//((Tvar //běhajících// ve větě //Potom uslyšeli zvuk velkého množství tlap a drápů, **běhajících** po jižní straně rokle.// ale najdeme na dotaz ''%%[lemma="běhající" & deprel="amod"]%%''.))
  
Řádek 226: Řádek 225:
 <code>[deprel="nsubj" & lemma="pták"]</code> <code>[deprel="nsubj" & lemma="pták"]</code>
  
-  * [[https://www.korpus.cz/kontext/view?q=~WwowOEw4Uss6|Tento dotaz]] hledá tvary lexému //pták// ve funkci podmětu. Najde např. větu //Několik **ptáků** znechuceně odletělo.// +  * [[https://www.korpus.cz/kontext/view?q=~WwowOEw4Uss6|Tento dotaz]] hledá tvary lexému //pták// ve funkci podmětu. Najde např. větu //Několik **ptáků** znechuceně odletělo.// 
   * Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'' (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%'').   * Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'' (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%'').
  
Řádek 234: Řádek 233:
 <code>[case="Acc" & case_lemma="o"]</code>  <code>[case="Acc" & case_lemma="o"]</code> 
  
-  * [[https://www.korpus.cz/kontext/view?q=~w4OmGg4oSYkq|Tento dotaz]] najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce //o// (lemma závislého pomocného slova se syntaktickou funkcí ''case'' je //o//).+  * [[https://www.korpus.cz/kontext/view?q=~0AwsQAG8Y4Sg|Tento dotaz]] najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce //o// (lemma závislého pomocného slova se syntaktickou funkcí ''case'' je //o//).
   * Najdeme tak např. větu //Dědovy holínky **pleskaly** o dlaždičky.//   * Najdeme tak např. větu //Dědovy holínky **pleskaly** o dlaždičky.//
   * Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit.    * Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit. 
Řádek 289: Řádek 288:
   * [[https://www.korpus.cz/kontext/view?q=~jAkKq2Ei6oY6|Tento dotaz]] najde věty se slovesem v rodě činném a podmiňovacím způsobu minulém, tedy např. větu //Kdo by to byl **tušil**, ...//    * [[https://www.korpus.cz/kontext/view?q=~jAkKq2Ei6oY6|Tento dotaz]] najde věty se slovesem v rodě činném a podmiňovacím způsobu minulém, tedy např. větu //Kdo by to byl **tušil**, ...// 
   * U významového slovesa stačí údaj o činném rodě ''%%voice="Act"%%'', slovesný tvar (l-ové příčestí) je určen tím, že na slovese má záviset kondicionálový auxiliár //by// (''%%aux_feats="Mood=Cnd"%%'').    * U významového slovesa stačí údaj o činném rodě ''%%voice="Act"%%'', slovesný tvar (l-ové příčestí) je určen tím, že na slovese má záviset kondicionálový auxiliár //by// (''%%aux_feats="Mood=Cnd"%%''). 
-  * Další výraz (''%%aux_feats="Tense=Past"]%%'') se týká druhého pomocného slovesa //byl//. Hodnoty ''feats'' obou pomocných sloves jsou atributu ''aux_feats'' spojeny do jedné (viz výše [[cnk:intercorp:verze13ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]).+  * Další výraz (''%%aux_feats="Tense=Past"]%%'') se týká druhého pomocného slovesa //byl//. Hodnoty ''feats'' obou pomocných sloves jsou atributu ''aux_feats'' spojeny do jedné (viz výše [[pojmy:ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]).
   * Dotaz najde i věty typu //Kdybych to byl **tušil**, ...//, přestože se může zdát, že věta kondicionálový auxiliár neobsahuje. Token //kdybych// je však rozdělen na podřadicí spojku //kdy// a pomocné sloveso //bych//, jehož kategorie se promítnou do anotace významového slovesa podobně jako kategorie tvaru //by//, tedy včetně specifikace ''%%Mood=Cnd%%''.   * Dotaz najde i věty typu //Kdybych to byl **tušil**, ...//, přestože se může zdát, že věta kondicionálový auxiliár neobsahuje. Token //kdybych// je však rozdělen na podřadicí spojku //kdy// a pomocné sloveso //bych//, jehož kategorie se promítnou do anotace významového slovesa podobně jako kategorie tvaru //by//, tedy včetně specifikace ''%%Mood=Cnd%%''.
  
Řádek 314: Řádek 313:
   * [[https://www.korpus.cz/kontext/view?q=~pIOs8ciQiOiW|Tento dotaz]] najde věty se slovesem v průběhovém perfektu (přítomném i minulém), např.  //... has been constantly **increasing** in velocity//   * [[https://www.korpus.cz/kontext/view?q=~pIOs8ciQiOiW|Tento dotaz]] najde věty se slovesem v průběhovém perfektu (přítomném i minulém), např.  //... has been constantly **increasing** in velocity//
   * Specifikace ''VerbForm=Fin'' se týká pomocného slovesa //has// a ''VerbForm=Part'' druhého pomocného slovesa //been//. Oba výrazy jsou součástí jedné hodnoty atributu ''aux_feats''.   * Specifikace ''VerbForm=Fin'' se týká pomocného slovesa //has// a ''VerbForm=Part'' druhého pomocného slovesa //been//. Oba výrazy jsou součástí jedné hodnoty atributu ''aux_feats''.
-  * Chceme-li najít pouze tvary minulého průběhového perfekta, nestačí přidat ''%%aux_feats="Tense=Past"%%'', protože tento údaj obsahuje i pomocné sloveso //been//. K zadání hodnoty ''aux_feats'' je tedy třeba použít regulární výraz, stejně jako v českém příkladu [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#minuly_kondicional_v_trpnem_rode|Minulý kondicionál v trpném rodě]], viz [[https://www.korpus.cz/kontext/view?q=~xwygg8mKKcac|následující dotaz]]:((Ani ten však nevyloučí případy jako //might have been **dwelling**//, kde je údaj ''Tense=Past'' uveden u tvaru //might//.))+  * Chceme-li najít pouze tvary minulého průběhového perfekta, nestačí přidat ''%%aux_feats="Tense=Past"%%'', protože tento údaj obsahuje i pomocné sloveso //been//. K zadání hodnoty ''aux_feats'' je tedy třeba použít regulární výraz, stejně jako v českém příkladu [[https://wiki.korpus.cz/doku.php/pojmy:ud#minuly_kondicional_v_trpnem_rode|Minulý kondicionál v trpném rodě]], viz [[https://www.korpus.cz/kontext/view?q=~xwygg8mKKcac|následující dotaz]]:((Ani ten však nevyloučí případy jako //might have been **dwelling**//, kde je údaj ''Tense=Past'' uveden u tvaru //might//.))
  
 <code>[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats=".*Tense=Past.*Tense=Past.*"]</code> <code>[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats=".*Tense=Past.*Tense=Past.*"]</code>
Řádek 323: Řádek 322:
  
  
-===== Legenda k seznamu atributů =====+==== Legenda k seznamu atributů =====
  
   * V {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}} jsou pod sebou všechny atributy v korpusu.    * V {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}} jsou pod sebou všechny atributy v korpusu. 
Řádek 369: Řádek 368:
   * Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně.    * Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně. 
   * Chyby a nedůslednosti v daném jazyce (např. //udělals// jako jednodílný token).   * Chyby a nedůslednosti v daném jazyce (např. //udělals// jako jednodílný token).
 +  * Ve verzi 13ud je v němčině u sloves i osobních zájmen kategorie osoby často určena nesprávně, např. //siehst// nebo //du// je podle anotace 1. nebo 3. osoba. UDPipe se takhle mýlí i ve verzi 2 podle modelu german-hdt-ud-2.10-220711. Model german-gsd-ud-2.10-220711 to má správně.
  
 Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci. Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci.
Řádek 377: Řádek 377:
  
  
---- //Alexandr Rosen//+===== Odkazy ===== 
 + 
 +==== Výběr literatury k UD ==== 
 + 
 +Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): [[https://doi.org/10.1162/coli_a_00402|Universal Dependencies]]. In: //Computational Linguistics//, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308. 
 + 
 +Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): [[https://drops.dagstuhl.de/opus/volltexte/2021/15591/pdf/dagrep_v011_i007_p089_21351.pdf|Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics]]. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89 
 + 
 +Daniel Zeman (2018): [[https://ufal.mff.cuni.cz/books/2018-zeman|The World of Tokens, Tags and Trees]]. ISBN 978-80-88132-09-7. 
 + 
 +Úplný seznam najdete [[https://universaldependencies.org/introduction.html#ud-related-publications|zde]]. 
 + 
 +==== Tutoriály a přednášky o UD ==== 
 + 
 +Daniel Zeman: [[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|Universal Dependencies and the Slavic Languages]]. Warszawa, 19.11.2018. 
 + 
 +Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: [[http://universaldependencies.org/eacl17tutorial/adding.pdf|Tutorial on Universal Dependencies: Adding a new language to UD]] 
 + 
 +Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=475|Coreference meets Universal Dependencies]]. Praha, 19/04/2021.
  
 +Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=421|Reflexives in Universal Dependencies]]. Praha, 04/03/2019.
  
-==== Související odkazy ====+==== O korpusu InterCorp s anotací podle UD ====
  
 +Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. 
 +[[https://owncloud.korpus.cz/s/n3XSpYPpcMjbdC6|Video]], pdf: [[https://owncloud.korpus.cz/s/aioW5oXt8Yo7tKp|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/8ALLEPbZnqbLodY|zážitky uživatelů]].
  
-<WRAP round box 50%> 
-xxx • xxx 
-</WRAP>