Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:ud [2022/08/12 19:36] – alexandrrosen | pojmy:ud [2024/02/19 18:15] (aktuální) – [O korpusu InterCorp s anotací podle UD] alexandrrosen |
---|
| |
Hlavní specifika verzí InterCorpu anotovaných podle UD: | Hlavní specifika verzí InterCorpu anotovaných podle UD: |
* **Slovní druh** a **morfologické kategorie** podle UD, označované jednotně u všech jazyků, se uvádějí zvlášť jako hodnoty atributu ''upos'' (viz níže část [[https://wiki.korpus.cz/doku.php/pojmy:ud#slovni_druh|Slovní druh]]) a ''feats'' (viz [[https://wiki.korpus.cz/doku.php/pojmy:ud#dalsi_kategorie|Další kategorie]]). Často využívané morfologické kategorie ze seznamu ''feats'' byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni ''upos''. To se týká např. morfologického pádu a čísla (''case'', ''number''), jmenného rodu (''gender'') nebo osoby (''person''). | * **Slovní druh** a **morfologické kategorie** podle UD, označované jednotně u všech jazyků, se uvádějí zvlášť jako hodnoty atributu ''upos'' (viz níže část [[pojmy:ud#slovni_druh|Slovní druh]]) a ''feats'' (viz [[https://wiki.korpus.cz/doku.php/pojmy:ud#dalsi_kategorie|Další kategorie]]). Často využívané morfologické kategorie ze seznamu ''feats'' byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni ''upos''. To se týká např. morfologického pádu a čísla (''case'', ''number''), jmenného rodu (''gender'') nebo osoby (''person''). |
* Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[pojmy:ud#vicedilne_tokeny|Vícedílné tokeny]]. | * Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[pojmy:ud#vicedilne_tokeny|Vícedílné tokeny]]. |
* U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[pojmy:ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[pojmy:ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[pojmy:ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]). | * U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[pojmy:ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[pojmy:ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[pojmy:ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]). |
* **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}}, který je popsán níže v [[https://wiki.korpus.cz/doku.php/pojmy:ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]]. | * **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}}, který je popsán níže v [[https://wiki.korpus.cz/doku.php/pojmy:ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]]. |
* KonText usnadňuje **hledání** podle slovního druhu a dalších morfologických kategorií pomocí funkce ''Vložit tag'', která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků. | * KonText usnadňuje **hledání** podle slovního druhu a dalších morfologických kategorií pomocí funkce ''Vložit tag'', která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků. |
| |
| |
| |
| |
===== Morfologická anotace ===== | ===== Morfologická anotace ===== |
* V češtině jde např. o tyto další tvary //abychom// (''a|bychom'' – ''aby|bychom''),((Jako první uvádíme původní podobu, tedy hodnotu atributu ''iword'', jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu ''sword''. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.)) //bylas// (''byla|s'' – ''byla|jsi'') nebo //oč// (''o|č'' – ''o|co''), v angličtině //isn't// (''is|n't'' – ''is|not'') nebo //cannot// (''can|not''), v němčině //zur// (''zu|r'' – ''zu|der'') nebo //am// (''a|m'' – ''an|dem''), v polštině //miałam// (''miała|m''), //żebyś// (''że|by|ś'') nebo //chciałbym// (''chciał|by|m''), ve francouzštině //des// (''de|s'' – ''de|les''), //aux// (''au|x'' – ''à|les'') nebo //auquel// (''au|quel'' – ''à|lequel''). | * V češtině jde např. o tyto další tvary //abychom// (''a|bychom'' – ''aby|bychom''),((Jako první uvádíme původní podobu, tedy hodnotu atributu ''iword'', jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu ''sword''. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.)) //bylas// (''byla|s'' – ''byla|jsi'') nebo //oč// (''o|č'' – ''o|co''), v angličtině //isn't// (''is|n't'' – ''is|not'') nebo //cannot// (''can|not''), v němčině //zur// (''zu|r'' – ''zu|der'') nebo //am// (''a|m'' – ''an|dem''), v polštině //miałam// (''miała|m''), //żebyś// (''że|by|ś'') nebo //chciałbym// (''chciał|by|m''), ve francouzštině //des// (''de|s'' – ''de|les''), //aux// (''au|x'' – ''à|les'') nebo //auquel// (''au|quel'' – ''à|lequel''). |
| |
==== Syntaktická anotace ===== | ===== Syntaktická anotace ===== |
| |
==== Syntaktické funkce ==== | ==== Syntaktické funkce ==== |
* Chceme-li vyhledat všechna slova s určitou syntaktickou funkcí, včetně těch, které jsou součástí koordinace, můžeme využít atribut ''p_deprel'', který ukazuje syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny nepřímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (%%|%%) takto: ''%%[deprel="obj" | deprel="conj" & p_deprel="obj"]%%''. | * Chceme-li vyhledat všechna slova s určitou syntaktickou funkcí, včetně těch, které jsou součástí koordinace, můžeme využít atribut ''p_deprel'', který ukazuje syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny nepřímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (%%|%%) takto: ''%%[deprel="obj" | deprel="conj" & p_deprel="obj"]%%''. |
| |
==== UD a KonText ===== | ===== UD a KonText ===== |
| |
==== Hledání v korpusu ==== | ==== Hledání v korpusu ==== |
<code>[deprel="nsubj" & lemma="pták"]</code> | <code>[deprel="nsubj" & lemma="pták"]</code> |
| |
* [[https://www.korpus.cz/kontext/view?q=~WwowOEw4Uss6|Tento dotaz]] hledá tvary lexému //pták// ve funkci podmětu. Najde např. větu //Několik **ptáků** znechuceně odletělo.// | * [[https://www.korpus.cz/kontext/view?q=~WwowOEw4Uss6|Tento dotaz]] hledá tvary lexému //pták// ve funkci podmětu. Najde např. větu //Několik **ptáků** znechuceně odletělo.// |
* Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'' (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%''). | * Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'' (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%''). |
| |
<code>[case="Acc" & case_lemma="o"]</code> | <code>[case="Acc" & case_lemma="o"]</code> |
| |
* [[https://www.korpus.cz/kontext/view?q=~w4OmGg4oSYkq|Tento dotaz]] najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce //o// (lemma závislého pomocného slova se syntaktickou funkcí ''case'' je //o//). | * [[https://www.korpus.cz/kontext/view?q=~0AwsQAG8Y4Sg|Tento dotaz]] najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce //o// (lemma závislého pomocného slova se syntaktickou funkcí ''case'' je //o//). |
* Najdeme tak např. větu //Dědovy holínky **pleskaly** o dlaždičky.// | * Najdeme tak např. větu //Dědovy holínky **pleskaly** o dlaždičky.// |
* Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit. | * Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit. |
* Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně. | * Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně. |
* Chyby a nedůslednosti v daném jazyce (např. //udělals// jako jednodílný token). | * Chyby a nedůslednosti v daném jazyce (např. //udělals// jako jednodílný token). |
| * Ve verzi 13ud je v němčině u sloves i osobních zájmen kategorie osoby často určena nesprávně, např. //siehst// nebo //du// je podle anotace 1. nebo 3. osoba. UDPipe se takhle mýlí i ve verzi 2 podle modelu german-hdt-ud-2.10-220711. Model german-gsd-ud-2.10-220711 to má správně. |
| |
Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci. | Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci. |
| |
| |
--- //Alexandr Rosen// | ===== Odkazy ===== |
| |
| ==== Výběr literatury k UD ==== |
| |
| Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): [[https://doi.org/10.1162/coli_a_00402|Universal Dependencies]]. In: //Computational Linguistics//, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308. |
| |
| Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): [[https://drops.dagstuhl.de/opus/volltexte/2021/15591/pdf/dagrep_v011_i007_p089_21351.pdf|Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics]]. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89 |
| |
| Daniel Zeman (2018): [[https://ufal.mff.cuni.cz/books/2018-zeman|The World of Tokens, Tags and Trees]]. ISBN 978-80-88132-09-7. |
| |
| Úplný seznam najdete [[https://universaldependencies.org/introduction.html#ud-related-publications|zde]]. |
| |
| ==== Tutoriály a přednášky o UD ==== |
| |
| Daniel Zeman: [[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|Universal Dependencies and the Slavic Languages]]. Warszawa, 19.11.2018. |
| |
| Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: [[http://universaldependencies.org/eacl17tutorial/adding.pdf|Tutorial on Universal Dependencies: Adding a new language to UD]] |
| |
| Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=475|Coreference meets Universal Dependencies]]. Praha, 19/04/2021. |
| |
| Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=421|Reflexives in Universal Dependencies]]. Praha, 04/03/2019. |
| |
==== Související odkazy ==== | ==== O korpusu InterCorp s anotací podle UD ==== |
| |
| Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. |
| [[https://owncloud.korpus.cz/s/n3XSpYPpcMjbdC6|Video]], pdf: [[https://owncloud.korpus.cz/s/aioW5oXt8Yo7tKp|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/8ALLEPbZnqbLodY|zážitky uživatelů]]. |
| |
<WRAP round box 50%> | |
xxx • xxx | |
</WRAP> | |
| |