Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:intercorp:verze13ud [2022/05/30 18:13] – [Hledání v korpusu] alexandrrosen
+++ cnk:intercorp:verze13ud [2022/08/13 09:57] – [Hlavní rozdíly mezi verzemi 13 a 13ud] alexandrrosen
@@ Řádek 27: / Řádek 27: @@
 ===== Hlavní rozdíly mezi verzemi 13 a 13ud =====
-  * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud lingvisticky anotovaných 36; všechny takové jazyky jsou navíc vybaveny i syntaktickou anotací.
+  * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.
-  * Texty jsou ve všech jazycích anotované stejně, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).
+  * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).
-  * Obecné zásady anotace jsou uvedeny na stránkách projektu UD ([[https://universaldependencies.org/guidelines.html|UD Guidelines]]), včetně podrobného popisu:
+  * Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[https://wiki.korpus.cz/doku.php/pojmy:ud|Universal Dependencies]] ve [[https://wiki.korpus.cz/doku.php/pojmy:prehled_pojmu|Slovníčku pojmů ČNK]].
-    * slovních druhů ([[https://universaldependencies.org/u/pos/index.html|Universal POS tags]])
-    * morfologických kategorií ([[https://universaldependencies.org/u/feat/index.html|Universal features]])
-    * syntaktických funkcí ([[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]])
   * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830,
 belarusian-hse-ud-2.6-200830,
@@ Řádek 69: / Řádek 66: @@
 ukrainian-iu-ud-2.6-200830,
 vietnamese-vtb-ud-2.6-200830.))
-  * Údaje o slovním druhu a morfologických kategoriích se v jiných verzích InterCorpu uvádějí jako [[pojmy:tag#morfologicka_znacka_tag|morfologická značka]] v atributu ''tag''. U většiny jazyků jsou jazykově specifické morfologické značky zachovány i ve verzi 13ud, a to v atributu ''xpos''. **Slovní druh a morfologické kategorie** podle UD, označované jednotně u všech jazyků, se ale uvádějí zvlášť jako hodnoty atributu ''upos'' (viz níže část [[cnk:intercorp:verze13ud#slovni_druh|Slovní druh]]) a ''feats'' (viz [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#dalsi_kategorie|Další kategorie]]). Často využívané morfologické kategorie ze seznamu ''feats'' byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni ''upos''. To se týká např. morfologického pádu a čísla (''case'', ''number''), jmenného rodu (''gender'') nebo osoby (''person'').
-  * Pro využití v KonTextu byly **agregáty**, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů //ses// (//se//+//jsi//) nebo //oč// (//o//+//co//). Podrobněji viz níže část [[cnk:intercorp:verze13ud#vicedilne_tokeny|Vícedílné tokeny]].
-  * U každého slova je určena jeho **syntaktická funkce** (''deprel'' – viz [[cnk:intercorp:verze13ud#syntakticke_funkce|Syntaktické funkce]] a řídící člen v závislostní syntaktické struktuře, tzv. **hlava** (''head''). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz [[cnk:intercorp:verze13ud#odkazy_na_ridici_clen|Odkazy na řídící člen]]). Pokud k významovému slovu patří nějaké **slovo pomocné** (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz [[cnk:intercorp:verze13ud#odkazy_na_pomocna_slova|Odkazy na pomocná slova]]).
-  * **Jazyky se liší** v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}}, který je popsán níže v [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#legenda_k_seznamu_atributu|Legendě k seznamu atributů]].
-  * KonText usnadňuje hledání podle slovního druhu a dalších morfologických kategorií pomocí funkce **''Vložit tag''**, která do dotazu vkládá slovní druh podle UD (''upos'') a libovolné kategorie ze seznamu ''feats''. Funkce ''Vložit tag'' je dostupná u všech lingvisticky anotovaných jazyků.
 ===== Obsah korpusu =====
@@ Řádek 189: / Řádek 180: @@
   * V pokročilém dotazu lze pomocí dotazovacího jazyka CQL jednotlivé kategorie zadávat odděleně. Např. tvar //moře// se najde na dotaz ''%%[upos="NOUN" & feats="Number=Sing"]%%''. Ruský tvar se najde na dotaz ''[upos=%%"NOUN"%% & feats=%%"Gender=Fem"%% & feats=%%"Case=Gen"%%]''. Na pořadí kategorií v dotazu nezáleží.
   * S hodnotou atributu ''feats'' lze nakládat také pomocí regulárních výrazů jako s řetězcem znaků, např. ''[upos=%%"NOUN"%% & feats=%%".*Case=Gen.*Gender=Fem.*"%%]''. Zde musí pořadí kategorií v dotazu odpovídat jejich pořadí v korpusu. Výsledek je v obou případech stejný.
-  * Některé kategorie ze seznamu ''feats'' jsou zpřístupněny zároveň i mimo tento seznam jako tzv. **kategoriální atributy**, takže např. dotaz na substantivum v singuláru je možné zadat i jednodušeji: ''%%[upos="NOUN" & number="Sing"]%%''. Kategoriální atributy lze využít při i pro generování frekvenčních seznamů.((Názvy kategoriálních atributů jsou z technických důvodů uvedeny s malým písmenem, např. ''verb_form'' místo ''VerbForm'' (jak je to ve ''feats'') nebo ''num_type'' místo ''NumType''. Hodnoty atributů, např. ''Fem'', si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.)) Kategoriální atributy najdete na <fc #f4a460>světle hnědém</fc> pozadí v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}} nebo v KonTextu v dolní části tabulky zobrazované v ''Zobrazení'' / ''Korpusová nastavení ...'' .
+  * Některé kategorie ze seznamu ''feats'' jsou zpřístupněny zároveň na stejné úrovni jako ''upos'' i mimo tento seznam jako tzv. **kategoriální atributy**, takže např. dotaz na substantivum v singuláru je možné zadat i jednodušeji: ''%%[upos="NOUN" & number="Sing"]%%''. Podobně i dotaz na ruský tvar vede ke stejnému výsledku jako dva výše uvedené dotazy: ''[upos=%%"NOUN"%% & %%gender="Fem"%% & %%case="Gen"%%]''. Kategoriální atributy lze využít při i pro generování frekvenčních seznamů.((Názvy kategoriálních atributů jsou z technických důvodů uvedeny s malým písmenem, např. ''verb_form'' místo ''VerbForm'' (jak je to ve ''feats'') nebo ''num_type'' místo ''NumType''. Hodnoty atributů, např. ''Fem'', si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.)) Kategoriální atributy najdete na <fc #f4a460>světle hnědém</fc> pozadí v {{cnk:intercorp:ud_ic_atributy.pdf|Seznamu atributů podle jazyků}} nebo v KonTextu v dolní části tabulky zobrazované v ''Zobrazení'' / ''Korpusová nastavení ...'' .
@@ Řádek 234: / Řádek 225: @@
     * Funkce umožňující zachytit v závislostní syntaktické struktuře koordinaci a podobné jevy nebo mají čistě technickou povahu jsou uvedeny //kurzívou//.
     * Funkce, které se v češtině nevyužívají, jsou uvedeny <fc #c0c0c0>šedě</fc>.
-  * V některých jazycích mohou mít některé funkce podtypy. Název podtypu je uveden po dvojtečce za názvem typu, např. ''acl:relcl'' označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce [[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]].
+  * V některých jazycích mohou mít některé funkce **podtypy**. Název podtypu je uveden po dvojtečce za názvem typu, např. ''acl:relcl'' označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce [[https://universaldependencies.org/u/dep/index.html|Universal Dependency Relations]].
   * Při zadávání dotazu na funkci, která může mít nějaký podtyp, je třeba s případným podtypem počítat. Použijeme-li v pokročilém dotazu např. výraz ''%%deprel="acl.*"%%'', najdou se nám všechna slova s funkcí ''acl'', bez ohledu na to, zda mají nebo nemají podtyp. Chceme-li najít všechna pomocná slovesa, je třeba místo pouhého ''%%deprel="aux"%%'' použít výraz ''%%deprel="aux.*"%%''. Všechny podměty najdeme výrazem ''%%deprel="nsubj.*"%%''.
-  * U koordinovaných větných členů najdeme takto jen první člen koordinace. Druhý a další člen je označen jako ''%%deprel="conj"%%''. Syntaktickou funkci celé koordinace lze zjistit z atributu ''deprel'' prvního členu, který je hlavou ostatních, tedy pomocí atributu ''p_deprel''. Podrobněji viz dále [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#koordinace|Koordinace]].
+  * U koordinovaných větných členů najdeme takto jen první člen **koordinace**. Druhý a další člen je označen jako ''%%deprel="conj"%%''. Syntaktickou funkci celé koordinace lze zjistit z atributu ''deprel'' prvního členu, který je hlavou ostatních, tedy pomocí atributu ''p_deprel''. Podrobněji viz dále [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#koordinace|Koordinace]].
   * Seznam všech funkcí a jejich podtypů lze pro libovolný jazyk zobrazit v prohlížeči KonText. Vyberte  konkrétní jazykový subkorpus, klikněte na ''Dotaz'' v horní liště a v nabídce zvolte ''Seznam slov''. V rámečku za ''Hledat podle atributu'' nastavte možnost ''deprel''. Pak klikněte dole na ''Vytvořit seznam slov''. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupce ''deprel''. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem "|".
@@ Řádek 284: / Řádek 275: @@
 | //parataxis// | [[https://universaldependencies.org/u/dep/parataxis.html | vsuvka, uvozovací věta ]] | // „Ten člověk,“ **__řekl__ Honza,** „odjel brzy ráno.“ // |
 | //punct// | [[https://universaldependencies.org/u/dep/punct.html | interpunkce ]] | // Máte všecko**?** // |
-| //reparandum// | [[https://universaldependencies.org/u/dep/reparandum.html | oprava chyby v plynulosti řeči ]] | // Jděte dopra- **doleva**. // |
+| <fc #c0c0c0>reparandum</fc> | [[https://universaldependencies.org/u/dep/reparandum.html | oprava chyby v plynulosti řeči ]] | // Jděte dopra- **doleva**. // |
 | **root** | [[https://universaldependencies.org/u/dep/root.html | řídící člen věty]] | // **Miluju** anglickou kuchyni. // |
 | **vocative** | [[https://universaldependencies.org/u/dep/vocative.html | oslovení ]] | // **Honzo**, pojď mi pomoct!// |
@@ Řádek 292: / Řádek 283: @@
 ==== Odkazy na řídící člen ====
-  * Kromě odkazu na hlavu (''head'' jako slovosledné pořadí hlavy ve větě nebo ''parent'' jako její relativní pozice vůči danému členu) jsou u každého tokenu uvedeny i některé další atributy jeho hlavy: lemma (''p_lemma''), slovní druh (''p_upos''), morfologické kategorie (''p_feats'') a syntaktická funkce (''p_deprel'').
+  * Kromě odkazu na hlavu (''head'' jako slovosledné pořadí hlavy ve větě nebo ''parent'' jako její relativní pozice vůči danému slovu) jsou u každého tokenu uvedeny i některé další atributy jeho hlavy: lemma (''p_lemma''), slovní druh (''p_upos''), morfologické kategorie (''p_feats'') a syntaktická funkce (''p_deprel'').
-  * Token může být vybaven i atributy, které specifikují vlastnosti pomocného slova, které na tokenu závisí. Např. lemma předložky uvádí atribut ''case_lemma'', morfologické kategorie pomocného slovesa atribut ''aux_feats'', morfologické kategorie spony atribut ''cop_feats'', slovní druh determinátoru atribut ''det_upos'', lemma podřadicí spojky atribut ''mark_lemma''.
+  * Token může být vybaven i atributy, které specifikují vlastnosti pomocného slova, které na tokenu závisí. Např. lemma předložky je určeno atributem ''case_lemma'', morfologické kategorie pomocného slovesa atributem ''aux_feats'', morfologické kategorie spony atributem ''cop_feats'', slovní druh determinátoru atributem ''det_upos'', lemma podřadicí spojky atributem ''mark_lemma''.
   * Podobné prostředky reprezentace syntaktické struktury používají i jiné syntakticky anotované korpusy zpřístupněné v prohlížeči KonText (např. ''syn2020'').
@@ Řádek 300: / Řádek 291: @@
   * Mezi pomocná slova patří podle UD pomocná slovesa, předložky, podřadicí spojky, spona, determinátory a kvantifikátory.
   * Pomocná slova závisejí na příslušném slově významovém.
-  * Druhy pomocných slov jsou určeny svou syntaktickou funkcí, tedy atributem ''deprel'': ''aux'' (pomocná slovesa), ''case'' (předložky), ''mark'' (podřadicí spojky), ''cop'' (spona), ''det'' (determinátor, člen) a ''clf'' (klasifikátor).
+  * Druhy pomocných slov jsou určeny svou syntaktickou funkcí, tedy hodnotou atributu ''deprel'': ''aux'' (pomocná slovesa), ''case'' (předložky), ''mark'' (podřadicí spojky), ''cop'' (spona), ''det'' (determinátor, člen) a ''clf'' (klasifikátory).
   * Za každé pomocné slovo může být u jeho řídícího slova významového uvedeno ''lemma'', ''upos'', ''feats'' a podrobnější specifikace druhu pomocného slova ''type'', např. ''%%aux_type="pass"%%'' (viz [[https://universaldependencies.org/cs/dep/aux-pass.html|passive auxiliary]]) nebo ''%%det_type="numgov"%%'' (viz [[https://universaldependencies.org/cs/dep/det-numgov.html|pronominal quantifier governing the case of the noun]]).
   * Názvy příslušných atributů významového slova se skládají z funkce a atributu pomocného slova. Např. ''case_lemma'' specifikuje u substantiva nebo zájmena lemma předložky, ''aux_feats'' u slovesa významového specifikuje morfologické kategorie pomocného slovesa.
@@ Řádek 311: / Řádek 302: @@
   * Spojka závisí na následujícím členu koordinace. Její syntaktická funkce je ''cc''.
   * K identifikaci hlavy bez ohledu na to, zda je token členem koordinace nebo zda je v ní na prvním nebo některém dalším místě, slouží odkaz na tzv. efektivní hlavu: atribut ''e_id'' odkazuje na její identifikátor (pořadové číslo tokenu představujícího hlavu v rámci věty), atribut ''eparent'' na její relativní pozici vůči danému tokenu.
-  * Chceme-li vyhledat všechna slova s určitou syntaktickou funkcí, včetně těch, které jsou součástí koordinace, můžeme využít atribut ''p_deprel'', který odkazuje na syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny nepřímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (%%|%%) takto: ''%%[deprel="obj" | deprel="conj" & p_deprel="obj"]%%''.
+  * Chceme-li vyhledat všechna slova s určitou syntaktickou funkcí, včetně těch, které jsou součástí koordinace, můžeme využít atribut ''p_deprel'', který ukazuje syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny nepřímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (%%|%%) takto: ''%%[deprel="obj" | deprel="conj" & p_deprel="obj"]%%''.
 ===== UD a KonText =====
@@ Řádek 335: / Řádek 326: @@
   * Syntaktická funkce se u každého tokenu uvádí jako hodnota atributu ''deprel'' (viz  [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#syntakticke_funkce|Syntaktické funkce]]).
-  * Např. dotaz, který má ukázat výskyty slovesa //běhat// ve funkci řídícího členu přívlastkové věty, se zadává jako ''%%[lemma="běhat" & deprel="acl"]%%''. Mezi výsledky najdeme např. větu //Copak máme čas **běhat** každý den pro vodu se dždánem ke studni nebo chodit do potoka?// nebo //Vlk musel uznat, že ještě nikdy za celou tu dobu, co	**běhá** po lese a po polích, neviděl nic tak roztomilého.//
+  * Např. dotaz, který má ukázat výskyty slovesa //běhat// ve funkci řídícího členu přívlastkové věty, se zadává jako ''%%[lemma="běhat" & deprel="acl"]%%''. Mezi výsledky najdeme např. větu //Copak máme čas **běhat** každý den pro vodu se dždánem ke studni nebo chodit do potoka?// nebo //Vlk musel uznat, že ještě nikdy za celou tu dobu, co	**běhá** po lese a po polích, neviděl nic tak roztomilého.//((Tvar //běhajících// ve větě //Potom uslyšeli zvuk velkého množství tlap a drápů, **běhajících** po jižní straně rokle.// ale najdeme na dotaz ''%%[lemma="běhající" & deprel="amod"]%%''.))
@@ Řádek 382: / Řádek 373: @@
 <code>[case="Dat" & deprel="obj" | case="Dat" & deprel="conj" & p_deprel="obj"]</code>
-  * [[https://www.korpus.cz/kontext/view?q=~3wGKQkuy2kE6|Tento dotaz]] najde přímé předměty v dativu, i když jsou součástí koordinace, např. ve větě //Chytil chřipku, **které** v novinách říkali "ruská".//
+  * [[https://www.korpus.cz/kontext/view?q=~3wGKQkuy2kE6|Tento dotaz]] najde přímé předměty v dativu, i když jsou součástí koordinace, např. ve větě //Chytil chřipku, **které** v novinách říkali "ruská".// nebo //Není jiná možnost, než je ukrást **mamce**, jejímu **manželovi** a **babičce**.//
+  * U koordinovaných předmětů je každý z nich v samostatné konkordanci.
   * Buď je v dativu s funkcí přímého předmětu klíčové slovo (''%%case="Dat" & deprel="obj"%%''), nebo má klíčové slovo v dativu (''%%case="Dat"%%'') funkci ''conj'' (''%%deprel="conj"%%'') a závisí na uzlu s funkcí přímého předmětu (''%%p_deprel="obj"%%''). To znamená, že je druhým nebo dalším členem koordinace, která má celá funkci ''obj''.

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence