Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:36]
Michal Škrabal [Výsledky pro InterCorp v7 a BNC]
kurz:hledani_v_paralelnim_korpusu [2021/04/19 14:35] (aktuální)
Michal Škrabal [Specifika vyhledávání v paralelním korpusu]
Řádek 1: Řádek 1:
-====== Specifika vyhledávání v paralelním korpusu ======+====== Specifika vyhledávání v paralelním korpusu ====== 
  
-Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v10 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).+Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v11 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
  
-Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.+Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v11 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
  
-První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný.+První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný.
  
-[{{ic_vyber.png?300|Výběr korpusu FIXME}}] +[{{ic_vyber.png?direct&300|Výběr korpusu }}] 
-[{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda// FIXME}}]+[{{lemma_pravda.png?direct&300|Zadání dotazu na lemma //pravda// }}]
  
 <WRAP clear/> <WRAP clear/>
  
-Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])).+Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších ekvivalentů z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřítkliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''.
  
-[{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině FIXME}}]+[{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 21: Řádek 21:
 Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto: Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:
  
-[{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth// FIXME}}]+[{{konkordance_pravda_truth.png?direct&600|Konkordance českého lemmatu //pravda// a anglického //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 28: Řádek 28:
 Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem. Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem.
  
-Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**.+Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **Příklad neobsahuje odpovídající výsledky**.
  
  
-[{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}] +[{{neobsahuje_lemma_truth_true.png?direct&300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// }}] 
-[{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}]+[{{vysledek_neobsahuje.png?direct&480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 41: Řádek 41:
  
 Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte. Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte.
 +
 ===== Specifika korpusů řady InterCorp ===== ===== Specifika korpusů řady InterCorp =====
  
Řádek 49: Řádek 50:
   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
-  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou.+  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat v souladu s dělením podle příslušného taggeru a části spřežky oddělit mezerou.
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
  
Řádek 76: Řádek 77:
 | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 |
 | ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 | | ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 |
-| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%] within <div srclang=%%"%%en%%"%% /> '' | InterCorp v10 (''div.srclang=en'') |  156 621 |  2435 |+| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%''  | InterCorp v10 (''div.srclang=en'') |  253 046 |  3304 |
  
 <WRAP round important 60%> <WRAP round important 60%>
Řádek 82: Řádek 83:
 </WRAP> </WRAP>
  
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Typy textů → div.srclang**):+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):
 ^ zdrojový jazyk ^   i.p.m. ^ ^ zdrojový jazyk ^   i.p.m. ^
-| angličtina | 2435 |  +| angličtina | 3304 |  
-| čeština 4724 +| čeština 5257 
-| ruština | 7627  | +| ruština | 7584  | 
-| francouzština | 1500  | +| francouzština | 2059  | 
-| němčina | 1440  | +| němčina | 1457  | 
-| švédština | 3046  |+| švédština | 3013  |
  
-Celkově se tedy zdá, že zájmeno //his// je v textech obsahujících i překlady distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. +Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. 
  
 ===== Srovnávací výzkum na korpusu Jerome ===== ===== Srovnávací výzkum na korpusu Jerome =====
-Můžeme podobné srovnání provést třeba pro překladovou češtinu a pokusit se zjistit, jestli je např. frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální textTéto otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.+Podobné srovnání můžeme provést pro překladovou češtinu: pokusme se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální textTéto otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.
  
 <WRAP round help 70%> <WRAP round help 70%>
Řádek 103: Řádek 104:
 </WRAP> </WRAP>
  
-Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:+Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí v kolonce ''opus.status'', že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:
  
 ^ zdrojový jazyk ^ čeština ^ angličtina  ^ němčina ^ francouzština ^  ^ zdrojový jazyk ^ čeština ^ angličtina  ^ němčina ^ francouzština ^ 
Řádek 123: Řádek 124:
 | publicistika |  8360 |  | publicistika |  8360 | 
  
-Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. +Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. 
  
 ===== Další možné využití korpusu InterCorp: falešní přátelé ===== ===== Další možné využití korpusu InterCorp: falešní přátelé =====
Řádek 129: Řádek 130:
 Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce.  Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. 
  
-[{{vyberinterc_macher.png?700|Konkordance se slovem //Macher//}}]+[{{vyberinterc_macher.png?direct&700|Konkordance se slovem //Macher//}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 135: Řádek 136:
  
 <WRAP round help 50%> <WRAP round help 50%>
-  * Vyhledejte si v německé složce InterCorpu verze lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).+  * Vyhledejte si v německé složce InterCorpu verze 10 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).
   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.
 </WRAP> </WRAP>
  
-Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:+Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v10 dává [[https://kontext.korpus.cz/view?ctxattrs=word&pcq_pos_neg_intercorp_v10_de=pos&attr_vmode=visible&pagesize=40&align=intercorp_v10_de&q=~3EjE9A5VyG&viewmode=align&attrs=word&corpname=intercorp_v10_cs&refs=%3Ddoc.id&attr_allpos=kw&maincorp=intercorp_v10_cs|přes 170 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:
  
-[{{vyberinterc_ksicht_a_ekvivalenty.png?700|Konkordance se slovem //ksicht//}}]+[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht// - verze 10}}]
  
 <WRAP clear/> <WRAP clear/>
  
  
-Vidíme, že v náhodném vzorku jedenácti dokladů (z celkových 65) je //Gesicht// ekvivalentem //ksichtu// pouze čtyřikrát. Z analýzy konkordancí je zřejmé, k jak výraznému významovému posunu směrem k pragmaticky zatíženému, expresivnímu výrazu při převzetí slova do češtiny došlo.  
  
 ---- ----