AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:58] – [Další možné využití korpusu InterCorp: falešní přátelé] Václav Cvrčekkurz:hledani_v_paralelnim_korpusu [2024/01/22 11:45] (aktuální) – [Specifika vyhledávání v paralelním korpusu] Michal Škrabal
Řádek 1: Řádek 1:
-====== Specifika vyhledávání v paralelním korpusu ======+====== Specifika vyhledávání v paralelním korpusu ====== 
  
-Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v10 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).+Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v15 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
  
-Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.+Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v15 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
  
-První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný.+První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný.
  
-[{{ic_vyber.png?direct&300|Výběr korpusu FIXME}}] +[{{ic_vyber.png?direct&300|Výběr korpusu }}] 
-[{{lemma_pravda.png?direct&300|Zadání dotazu na lemma //pravda// FIXME}}]+[{{lemma_pravda.png?direct&300|Zadání dotazu na lemma //pravda// }}]
  
 <WRAP clear/> <WRAP clear/>
  
-Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])).+Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších protějšků z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Zaškrtnutím okénka vedle těchto ekvivalentů se příslušný výraz či výrazy podbarví v pravé části paralelní konkordance.  
 +Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřítkliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''.
  
-[{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině FIXME}}]+Zároveň lze kliknout levým tlačítkem myši na libovolné slovo v paralelní konkordanci, to se podbarví a rozhraní se v paralelní části pokusí vyhledat jeho cizojazyčný ekvivalent (na základě nejčastějších protějšků podle aplikace Treq). 
 + 
 +[{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]FIXME
  
 <WRAP clear/> <WRAP clear/>
Řádek 21: Řádek 24:
 Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto: Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:
  
-[{{konkordance_pravda_truth.png?direct&600|Konkordance českého lemmatu //pravda// a anglického //truth// FIXME}}]+[{{konkordance_pravda_truth.png?direct&600|Konkordance českého lemmatu //pravda// a anglického //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 28: Řádek 31:
 Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem. Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem.
  
-Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**.+Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **Příklad neobsahuje odpovídající výsledky**.
  
  
-[{{neobsahuje_lemma_truth_true.png?direct&300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}] +[{{neobsahuje_lemma_truth_true.png?direct&300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// }}] 
-[{{vysledek_neobsahuje.png?direct&480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}]+[{{vysledek_neobsahuje.png?direct&480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 47: Řádek 50:
  
   * Ne každý jazyk v korpusu InterCorp je [[pojmy:lemma|lemmatizovaný]] nebo [[pojmy:tag|tagovaný]], tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz [[cnk:intercorp:verze9#Morfosyntaktická anotace|seznam]].   * Ne každý jazyk v korpusu InterCorp je [[pojmy:lemma|lemmatizovaný]] nebo [[pojmy:tag|tagovaný]], tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz [[cnk:intercorp:verze9#Morfosyntaktická anotace|seznam]].
-  * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu.+  * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu. Výjimkou je verze [[cnk:intercorp:verze13ud|13ud]], která je anotována morfologicky i syntakticky podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]], které jsou pro všechny jazyky jednotné.
   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
-  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou.+  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat v souladu s dělením podle příslušného taggeru a části spřežky oddělit mezerou.
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
  
-===== Srovnávací výzkum na korpusu InterCorp verze 10 =====+===== Srovnávací výzkum na korpusu InterCorp verze 15 =====
  
 Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.
Řádek 69: Řádek 72:
  
   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))
-  - Celý postup si ukážeme na InterCorpu ve verzi 10.+  - Celý postup si ukážeme na InterCorpu ve verzi 15.
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').
  
-==== Výsledky pro InterCorp v10 a BNC ====+==== Výsledky pro InterCorp v15 a BNC ====
  
 ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^
 | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 |
-| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 +| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v15 |  484 326 |  2885 
-| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%''  | InterCorp v10 (''div.srclang=en'') |  253 046 |  3304 |+| ''[tag=%%"PP\$" & lemma="his"%%] within %%<text srclang="en" />%%''  | InterCorp v15 (''text.srclang=en'') |  319 740 |  1904 |
  
 <WRAP round important 60%> <WRAP round important 60%>
Řádek 83: Řádek 86:
 </WRAP> </WRAP>
  
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → text.srclang**):
 ^ zdrojový jazyk ^   i.p.m. ^ ^ zdrojový jazyk ^   i.p.m. ^
-| angličtina | 3304 |  +| angličtina | 3735 |  
-| čeština 5257 |+| čeština 5368 | 
 +| španělština | 5857 |
 | ruština | 7584  | | ruština | 7584  |
-| francouzština | 2059  | +| francouzština | 3008  | 
-| němčina | 1457  |+| němčina | 1805  |
 | švédština | 3013  | | švédština | 3013  |
 +| italština | 1817 |
 +| srbština | 9573 |
  
 Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.  Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. 
Řádek 136: Řádek 142:
  
 <WRAP round help 50%> <WRAP round help 50%>
-  * Vyhledejte si v německé složce InterCorpu verze 10 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).+  * Vyhledejte si v německé složce InterCorpu verze 15 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).
   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.
 </WRAP> </WRAP>
  
-Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v10 dává [[https://kontext.korpus.cz/view?ctxattrs=word&pcq_pos_neg_intercorp_v10_de=pos&attr_vmode=visible&pagesize=40&align=intercorp_v10_de&q=~3EjE9A5VyG&viewmode=align&attrs=word&corpname=intercorp_v10_cs&refs=%3Ddoc.id&attr_allpos=kw&maincorp=intercorp_v10_cs|přes 170 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:+Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v15 dává [[https://www.korpus.cz/kontext/view?maincorp=intercorp_v15_de&viewmode=align&pagesize=100&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.id&q=~Z2KoE2ISQA6E190 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:
  
-[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht// FIXME - verze 10}}]+[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht//}}]
  
 <WRAP clear/> <WRAP clear/>
  
  
-Vidíme, že v náhodném vzorku jedenácti dokladů (z celkových 65) je //Gesicht// ekvivalentem //ksichtu// pouze čtyřikrát. Z analýzy konkordancí je zřejmé, k jak výraznému významovému posunu směrem k pragmaticky zatíženému, expresivnímu výrazu při převzetí slova do češtiny došlo.  
  
 ---- ----