AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:ud [2024/06/16 22:37] – [Příklady dotazů] alexandrrosenpojmy:ud [2024/10/08 21:58] (aktuální) – [O korpusu InterCorp s anotací podle UD] alexandrrosen
Řádek 12: Řádek 12:
   * Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[pojmy:ud#vicedilne_tokeny|Vícedílné tokeny]].   * Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[pojmy:ud#vicedilne_tokeny|Vícedílné tokeny]].
   * U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[pojmy:ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[pojmy:ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[pojmy:ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]).   * U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[pojmy:ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[pojmy:ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[pojmy:ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]).
-  * **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}}, který je popsán níže v [[https://wiki.korpus.cz/doku.php/pojmy:ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]]. +  * **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti viz níže v [[https://wiki.korpus.cz/doku.php/pojmy:ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]]. 
   * KonText usnadňuje **hledání** podle slovního druhu a dalších morfologických kategorií pomocí funkce ''Vložit tag'', která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků.   * KonText usnadňuje **hledání** podle slovního druhu a dalších morfologických kategorií pomocí funkce ''Vložit tag'', která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků.
  
Řádek 131: Řádek 131:
 | //flat:foreign// | [[https://universaldependencies.org/u/dep/flat-foreign.html | další části cizího víceslovného výrazu ]] | // Summum **ius**, summa **iniuria** je estetická maxima. // | | //flat:foreign// | [[https://universaldependencies.org/u/dep/flat-foreign.html | další části cizího víceslovného výrazu ]] | // Summum **ius**, summa **iniuria** je estetická maxima. // |
 | //goeswith// | [[https://universaldependencies.org/u/dep/goeswith.html | další část chybně rozděleného tvaru ]] | // Zastavil se a z **těžka** oddychoval. // | | //goeswith// | [[https://universaldependencies.org/u/dep/goeswith.html | další část chybně rozděleného tvaru ]] | // Zastavil se a z **těžka** oddychoval. // |
-| **iobj** | [[https://universaldependencies.org/u/dep/iobj.html | nepřímý předmět ]] | //Vysvětlila **studentům** svůj plán.// |+| **iobj** | [[https://universaldependencies.org/u/dep/iobj.html | nepřímý předmět v akuzativu ]] | //Učí **mne** chemii.// |
 | //list// | [[https://universaldependencies.org/u/dep/list.html | další části seznamu ]] | //Steve Jones **tel.: 555-9814 e-mail: jones@abc.edf**// | | //list// | [[https://universaldependencies.org/u/dep/list.html | další části seznamu ]] | //Steve Jones **tel.: 555-9814 e-mail: jones@abc.edf**// |
 | //**mark**// | [[https://universaldependencies.org/u/dep/mark.html | podřadicí spojka ]] | //Nevěděli jsme, **že** babička není doma. // | | //**mark**// | [[https://universaldependencies.org/u/dep/mark.html | podřadicí spojka ]] | //Nevěděli jsme, **že** babička není doma. // |
Řádek 139: Řádek 139:
 | **nummod** | [[https://universaldependencies.org/cs/dep/nummod.html | číslovka ]] | // **Jedno** kotě spalo. // | | **nummod** | [[https://universaldependencies.org/cs/dep/nummod.html | číslovka ]] | // **Jedno** kotě spalo. // |
 | **nummod:gov** | [[https://universaldependencies.org/cs/dep/nummod-gov.html | číslovka v pádu neshodném se jménem ]] | // **Pět** mužů hrálo karty. // | | **nummod:gov** | [[https://universaldependencies.org/cs/dep/nummod-gov.html | číslovka v pádu neshodném se jménem ]] | // **Pět** mužů hrálo karty. // |
-| **obj** | [[https://universaldependencies.org/u/dep/obj.html | přímý předmět ]] | //Cením si **vaší __pomoci__**.// |+| **obj** | [[https://universaldependencies.org/u/dep/obj.html | přímý předmět ]] | //Přiloží si **ruku** na srdce.// |
 | **obl** | [[https://universaldependencies.org/u/dep/obl.html | jmenné příslovečné určení ]] | //Vzduch se tetelil **__očekáváním__ blaha**. // | | **obl** | [[https://universaldependencies.org/u/dep/obl.html | jmenné příslovečné určení ]] | //Vzduch se tetelil **__očekáváním__ blaha**. // |
-| **obl:arg** | [[https://universaldependencies.org/cs/dep/obl.html | jmenné íslovečné určení ve funkci argumentu ]] | //Otec určitě myslel **jen na __matku__**. // |+| **obl:arg** | [[https://universaldependencies.org/cs/dep/obl.html | předmět v nepřímém pádu nebo přísl. určení ve funkci argumentu ]] | //Otec určitě myslel **jen na __matku__**. Věnoval **jí** knížku. // |
 | //orphan// | [[https://universaldependencies.org/u/dep/orphan.html | závislost na vypuštěném větném členu ]] | // Pavel si objednal špenát a Markéta **brokolici**. // | | //orphan// | [[https://universaldependencies.org/u/dep/orphan.html | závislost na vypuštěném větném členu ]] | // Pavel si objednal špenát a Markéta **brokolici**. // |
 | //parataxis// | [[https://universaldependencies.org/u/dep/parataxis.html | vsuvka, uvozovací věta ]] | // „Ten člověk,“ **__řekl__ Honza,** „odjel brzy ráno.“ // | | //parataxis// | [[https://universaldependencies.org/u/dep/parataxis.html | vsuvka, uvozovací věta ]] | // „Ten člověk,“ **__řekl__ Honza,** „odjel brzy ráno.“ // |
Řádek 251: Řádek 251:
  
 === Předměty v dativu, i v koordinaci === === Předměty v dativu, i v koordinaci ===
- 
- 
  
 <code>[case="Dat" & e_deprel="obl:arg"]</code> <code>[case="Dat" & e_deprel="obl:arg"]</code>
Řádek 269: Řádek 267:
  
   * [[https://www.korpus.cz/kontext/view?q=~NQYQAU0ma42U|Tento dotaz]] najde vlastní jména ve funkci podmětu, i když jsou součástí koordinace.   * [[https://www.korpus.cz/kontext/view?q=~NQYQAU0ma42U|Tento dotaz]] najde vlastní jména ve funkci podmětu, i když jsou součástí koordinace.
-  * Např. ve větě //**Evropa** a **Japonsko** se v mnohém cítí stejně ukřivděně jako Trump.// se ve výsledcích objeví Evropa i Japonsko. +  * Např. ve větě //**Evropa** a **Japonsko** se v mnohém cítí stejně ukřivděně jako Trump.// se ve výsledcích objeví Evropa i Japonsko. 
 +  * Ve verzi 16ud najdeme totéž pomocí atributu ''e_deprel'' jednodušeji: 
 + 
 +<code>[e_deprel="nsubj" & upos="PROPN"]</code> 
  
  
Řádek 340: Řádek 341:
 ==== Legenda k seznamu atributů ===== ==== Legenda k seznamu atributů =====
  
-  * V {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}} jsou pod sebou všechny atributy v korpusu. +  * V {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků ve verzi 13ud}} nebo {{cnk:intercorp:ud_ic16ud_attributy.pdf|Seznamu atributů podle jazyků ve verzi 13ud}} jsou pod sebou všechny atributy v daném korpusu. 
   * Ve sloupcích je uvedeno, zda je atribut využit pro jazyk určený zkratkou v záhlaví.   * Ve sloupcích je uvedeno, zda je atribut využit pro jazyk určený zkratkou v záhlaví.
   * Atributy jsou rozděleny do čtyř kategorií, odlišených barvou pozadí.   * Atributy jsou rozděleny do čtyř kategorií, odlišených barvou pozadí.
 +  * Pro stručnost jsou uvedeny jen lingvisticky označkované jazyky. Např. v seznamu k verzi 16ud je vynecháno 14 jazyků označených zkratkami bn, br, bs, eo, hs, ka, mk, ml, ms, rn, si, sq, th a tl. U těchto jazyků lze hledat jen podle atributů ''word'' a ''lc''.
  
 ==== Základní atributy ==== ==== Základní atributy ====
Řádek 356: Řádek 358:
 ==== Strukturní atributy ==== ==== Strukturní atributy ====
  
-  * Těchto 7 atributů je na <fc #6495ed>světle modrém</fc> pozadí.+  * Tyto atributy je na <fc #6495ed>světle modrém</fc> pozadí.
   * Rozšiřují odkaz na syntaktickou hlavu tokenu (''head'') o další atributy, usnadňující identifikaci hlavy a orientaci v jejích vlastnostech, např. na její lemma (''p_lemma''), slovní druh (''p_upos'') nebo syntaktickou funkci (''p_deprel'').   * Rozšiřují odkaz na syntaktickou hlavu tokenu (''head'') o další atributy, usnadňující identifikaci hlavy a orientaci v jejích vlastnostech, např. na její lemma (''p_lemma''), slovní druh (''p_upos'') nebo syntaktickou funkci (''p_deprel'').
   * Atributy tohoto typu jsou v plném počtu u všech jazyků.    * Atributy tohoto typu jsou v plném počtu u všech jazyků. 
Řádek 419: Řádek 421:
 ==== O korpusu InterCorp s anotací podle UD ==== ==== O korpusu InterCorp s anotací podle UD ====
  
-Alexandr Rosen: Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics. Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski. Warszawa, 10/06/2024. [[https://owncloud.korpus.cz/s/RRdGfaEAw2RMZ8g|Prezentace]] +Olga Nádvorníková a Alexandr Rosen (2024): Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. [[https://www.youtube.com/watch?v=5l5Vbb1eQDw&t=190s|Záznam workshopu]] z 17. 9. 2024doprovodné akce [[https://bcl2024.ff.cuni.cz|Bienále české lingvistiky 2024]], viz též [[https://jakobson.korpus.cz/~rosen/BCL2024/P18_SLIDES/Prezentace_Bienale2024_WorkShop.pdf|prezentace]].
- +
- +
-Olga Nádvorníková: Analyse contrastive de la complexité syntaxique à l’aide de corpus parallèles. Translitteræ, Laboratoire LATTICE (Langues, Textes, Traitements informatiques et Cognition– CNRS UMR 8094 (Centre national de la recherche scientifiqueUnité mixte de recherche), ENS (L'École normale supérieure). Paris, 28/05/2024. [[https://www.youtube.com/watch?v=wJrCez_XPQY|Video]], [[https://owncloud.korpus.cz/s/aHLBR4soqmoZcFQ|pdf]] +
- +
-Olga NádvorníkováAlexandr Rosen, Martin Stluka: InterCorp a Universal Dependencies: nové možnosti výzkumu. Teoreticko-metodologický seminář Ústavu českého jazyka a teorie komunikace FF UK. Praha, 20/03/2024, 27/03/2024. [[https://docs.google.com/document/d/1nSPzyhT6oHKUDN8A_uYmWrZH6tAmxTH_pUMOdjg01Eg/edit?usp=sharing|Program workshopu s odkazy na prezentace a záznamy]]+
  
-Alexandr Rosen (2023). The InterCorp parallel corpus with a uniform annotation for all languagesJazykovedný časopis74(1):254–265[[https://www.juls.savba.sk/ediela/jc/2023/1/jc23-01.pdf|Článek]], [[https://owncloud.korpus.cz/s/wLxfrmwKCACX73W|prezentace]]+Alexandr Rosen (2024): Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metricsInstytut Slawistyki Zachodniej i PołudniowejUniwersytet WarszawskiWarszawa, 10/06/2024. [[https://jakobson.korpus.cz/~rosen/INTERCORP/SLIDES/2024_UDCM_Wwa.pdf|Prezentace]]
  
-Olga Nádvorníková, Alexandr RosenMartin VavřínInterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelůPraha16/11/2021 +Olga Nádvorníková (2024): Analyse contrastive de la complexité syntaxique à l’aide de corpus parallèles. TranslitteræLaboratoire LATTICE (LanguesTextes, Traitements informatiques et Cognition) – CNRS UMR 8094 (Centre national de la recherche scientifiqueUnité mixte de recherche), ENS (L'École normale supérieure)Paris28/05/2024. [[https://www.youtube.com/watch?v=wJrCez_XPQY|Záznam přednášky]], [[https://jakobson.korpus.cz/~rosen/INTERCORP/SLIDES/C4%20Nadvornikova%20Analyse%20contrastiv%20e%20de%20la%20complexité%20syntaxique.pdf|prezentace]].
-[[https://owncloud.korpus.cz/s/n3XSpYPpcMjbdC6|Video]], pdf: [[https://owncloud.korpus.cz/s/aioW5oXt8Yo7tKp|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/8ALLEPbZnqbLodY|zážitky uživatelů]]+
  
 +Olga Nádvorníková, Alexandr Rosen, Martin Stluka (2024): InterCorp a Universal Dependencies: nové možnosti výzkumu. Teoreticko-metodologický seminář Ústavu českého jazyka a teorie komunikace FF UK. Praha, 20/03/2024, 27/03/2024. [[https://docs.google.com/document/d/1nSPzyhT6oHKUDN8A_uYmWrZH6tAmxTH_pUMOdjg01Eg/edit?usp=sharing|Program workshopu s odkazy na prezentace a záznamy]]
  
 +Alexandr Rosen (2023). The InterCorp parallel corpus with a uniform annotation for all languages. Jazykovedný časopis, 74(1):254–265. [[https://www.juls.savba.sk/ediela/jc/2023/1/jc23-01.pdf|Článek]], [[https://jakobson.korpus.cz/~rosen/INTERCORP/SLIDES/rosen-slovko-2023.pdf|prezentace]]
  
 +Olga Nádvorníková, Alexandr Rosen, Martin Vavřín (2021): InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. 
 +[[https://owncloud.korpus.cz/s/n3XSpYPpcMjbdC6|Záznam přednášky]], prezentace: [[https://owncloud.korpus.cz/s/aioW5oXt8Yo7tKp|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/8ALLEPbZnqbLodY|zážitky uživatelů]]