Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:44] – [Výsledky pro InterCorp v10 a BNC] michalskrabal | kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:54] – [Další možné využití korpusu InterCorp: falešní přátelé] michalskrabal |
---|
| |
===== Srovnávací výzkum na korpusu Jerome ===== | ===== Srovnávací výzkum na korpusu Jerome ===== |
Můžeme podobné srovnání provést třeba pro překladovou češtinu a pokusit se zjistit, jestli je např. frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální text? Této otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný. | Podobné srovnání můžeme provést i pro překladovou češtinu: pokusme se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální text. Této otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný. |
| |
<WRAP round help 70%> | <WRAP round help 70%> |
</WRAP> | </WRAP> |
| |
Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština: | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí v kolonce ''opus.status'', že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština: |
| |
^ zdrojový jazyk ^ čeština ^ angličtina ^ němčina ^ francouzština ^ | ^ zdrojový jazyk ^ čeština ^ angličtina ^ němčina ^ francouzština ^ |
| publicistika | 8360 | | | publicistika | 8360 | |
| |
Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. | Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. |
| |
===== Další možné využití korpusu InterCorp: falešní přátelé ===== | ===== Další možné využití korpusu InterCorp: falešní přátelé ===== |
Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. | Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. |
| |
[{{vyberinterc_macher.png?700|Konkordance se slovem //Macher//}}] | [{{vyberinterc_macher.png?direct&700|Konkordance se slovem //Macher//}}] |
| |
<WRAP clear/> | <WRAP clear/> |
Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: | Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: |
| |
[{{vyberinterc_ksicht_a_ekvivalenty.png?700|Konkordance se slovem //ksicht//}}] | [{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht// FIXME}}] |
| |
<WRAP clear/> | <WRAP clear/> |