Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:ud [2022/08/13 10:05] – [Chyby a nedostatky lingvistické anotace podle UD] alexandrrosen | pojmy:ud [2024/02/19 18:15] (aktuální) – [O korpusu InterCorp s anotací podle UD] alexandrrosen |
---|
<code>[deprel="nsubj" & lemma="pták"]</code> | <code>[deprel="nsubj" & lemma="pták"]</code> |
| |
* [[https://www.korpus.cz/kontext/view?q=~WwowOEw4Uss6|Tento dotaz]] hledá tvary lexému //pták// ve funkci podmětu. Najde např. větu //Několik **ptáků** znechuceně odletělo.// | * [[https://www.korpus.cz/kontext/view?q=~WwowOEw4Uss6|Tento dotaz]] hledá tvary lexému //pták// ve funkci podmětu. Najde např. větu //Několik **ptáků** znechuceně odletělo.// |
* Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'' (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%''). | * Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu ''p_lemma'' (v menu KonTextu: ''%%Frekvence / Vlastní... / Atribut: p_lemma%%''). |
| |
<code>[case="Acc" & case_lemma="o"]</code> | <code>[case="Acc" & case_lemma="o"]</code> |
| |
* [[https://www.korpus.cz/kontext/view?q=~w4OmGg4oSYkq|Tento dotaz]] najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce //o// (lemma závislého pomocného slova se syntaktickou funkcí ''case'' je //o//). | * [[https://www.korpus.cz/kontext/view?q=~0AwsQAG8Y4Sg|Tento dotaz]] najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce //o// (lemma závislého pomocného slova se syntaktickou funkcí ''case'' je //o//). |
* Najdeme tak např. větu //Dědovy holínky **pleskaly** o dlaždičky.// | * Najdeme tak např. větu //Dědovy holínky **pleskaly** o dlaždičky.// |
* Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit. | * Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit. |
* Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně. | * Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně. |
* Chyby a nedůslednosti v daném jazyce (např. //udělals// jako jednodílný token). | * Chyby a nedůslednosti v daném jazyce (např. //udělals// jako jednodílný token). |
| * Ve verzi 13ud je v němčině u sloves i osobních zájmen kategorie osoby často určena nesprávně, např. //siehst// nebo //du// je podle anotace 1. nebo 3. osoba. UDPipe se takhle mýlí i ve verzi 2 podle modelu german-hdt-ud-2.10-220711. Model german-gsd-ud-2.10-220711 to má správně. |
| |
Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci. | Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci. |
| |
Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. | Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. |
[[https://sdileni.korpus.cz/s/JwtY7fTcoDdbcse|Video]], pdf: [[https://owncloud.korpus.cz/s/JfKWHCecnG7nCEt|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/pYwKr57QRNyfCx2|zážitky uživatelů]]. | [[https://owncloud.korpus.cz/s/n3XSpYPpcMjbdC6|Video]], pdf: [[https://owncloud.korpus.cz/s/aioW5oXt8Yo7tKp|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/8ALLEPbZnqbLodY|zážitky uživatelů]]. |
| |
| |