AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:44] – [Výsledky pro InterCorp v10 a BNC] michalskrabalkurz:hledani_v_paralelnim_korpusu [2018/08/08 14:54] – [Další možné využití korpusu InterCorp: falešní přátelé] michalskrabal
Řádek 94: Řádek 94:
  
 ===== Srovnávací výzkum na korpusu Jerome ===== ===== Srovnávací výzkum na korpusu Jerome =====
-Můžeme podobné srovnání provést třeba pro překladovou češtinu a pokusit se zjistit, jestli je např. frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální textTéto otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.+Podobné srovnání můžeme provést pro překladovou češtinu: pokusme se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální textTéto otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.
  
 <WRAP round help 70%> <WRAP round help 70%>
Řádek 103: Řádek 103:
 </WRAP> </WRAP>
  
-Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:+Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí v kolonce ''opus.status'', že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:
  
 ^ zdrojový jazyk ^ čeština ^ angličtina  ^ němčina ^ francouzština ^  ^ zdrojový jazyk ^ čeština ^ angličtina  ^ němčina ^ francouzština ^ 
Řádek 123: Řádek 123:
 | publicistika |  8360 |  | publicistika |  8360 | 
  
-Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. +Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. 
  
 ===== Další možné využití korpusu InterCorp: falešní přátelé ===== ===== Další možné využití korpusu InterCorp: falešní přátelé =====
Řádek 129: Řádek 129:
 Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce.  Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. 
  
-[{{vyberinterc_macher.png?700|Konkordance se slovem //Macher//}}]+[{{vyberinterc_macher.png?direct&700|Konkordance se slovem //Macher//}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 141: Řádek 141:
 Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:
  
-[{{vyberinterc_ksicht_a_ekvivalenty.png?700|Konkordance se slovem //ksicht//}}]+[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht// FIXME}}]
  
 <WRAP clear/> <WRAP clear/>