Nastavení

Specifika vyhledávání v paralelním korpusu

Jak ukazuje seznam dostupných korpusů ČNK, vedle jednojazyčných korpusů umožňuje rozhraní KonText přístup i ke korpusům paralelním, v našem případě především ke korpusu InterCorp. Zmíníme se rovněž o srovnatelných korpusech, konkrétně o korpusu Jerome.

Paralelní korpusy v rozhraní KonText

Jak začít s hledáním v paralelním korpusu? Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek InterCorp a pak první jazyk, např. InterCorp v9 – Czech (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).

Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci Zarovnané korpusy si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. InterCorp v9 - English. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.

První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova pravda, zadáme do prvního jazyka jako typ dotazu Lemma pravda a dotaz na druhý jazyk necháme prázdný.

Výběr korpusu
Zadání dotazu na lemma pravda

Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu pravda v angličtině je adjektivní true a substantivní truth.1).

Vyhodnocení dotazu na lemma pravda v češtině

Pokud chceme prozkoumat věty, kde je pravda přeložena jako truth, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde hledané slovo v prvním jazyce odpovídá hledanému lexému v jazyce druhém. Zaškrtneme-li volbu zobrazit i prázdné řádky, bude seznam obsahovat i řádky, kde v druhém jazyce nebyla věta přeložena. Výsledná konkordance by měla vypadat takto:

Konkordance českého lemmatu pravda a anglického truth

Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. frekvenční distribuce nebo kolokace) pak pracují s takto vybraným sloupcem.

Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma pravda a na anglické zvolíme lemma truth nebo true – případně obojí: [lemma="truth|true"] –, ale s volbou NEobsahuje.

Funkce NEobsahuje je v důsledku technických problémů dočasně neaktivní. Na jejím opětovném spuštění pracujeme.

Dotaz na lemma pravda, který neobsahuje lemmata true či truth
Vyhodnocení dotazu na lemma pravda, který neobsahuje lemmata true či truth

Takto získaný seznam konkordancí můžeme dále třídit pomocí filtrů.

Korpus InterCorp obsahuje velké množství textů, které jsou zpracované a zarovnané automaticky. Mnohdy je proto výhodnější vytvořením vlastního subkorpusu omezit hledání pouze na tu složku InterCorpu, která obsahuje ručně zarovnané texty, tzv. jádro (core). Toho lze nejsnáze dosáhnout vytvořením subkorpusu zvolením atributu korpusu div.group s hodnotou Core.

Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte.

Specifika korpusů řady InterCorp

Popisu celého korpusu InterCorp se věnuje tato stránka, zde vyjímáme několik zásadních upozornění:

  • Ne každý jazyk v korpusu InterCorp je lemmatizovaný nebo tagovaný, tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz seznam.
  • Způsob tagování je pro různé jazyky odlišný – může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu.
  • Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
  • Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
  • U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can’t nebo I’m, které tagger rozdělí na dvě slova (ca n’t a I ’m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś, rozdělenými na była m a gdyby ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. Dotaz na celou spřežku je nutné zadat jako Fráze a části spřežky oddělit mezerou.
  • Paralelní korpus InterCorp se liší od korpusů řady SYN i některými strukturními jednotkami a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou Zobrazení → Korpusová nastavení.)

Srovnávací výzkum na korpusu InterCorp verze 7

Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlviu překladovosti v rámci jednoho jazyka.

Projevuje se v distribuci přivlastňovacích zájmen v češtině a angličtině typologický rozdíl mezi jazyky? Zaměřte se na distribuci posesiva his v různých korpusech a subkorpusech:

  • BNC2)
  • InterCorp – anglická složka
  • InterCorp – subkorpus obsahující pouze původní, nepřekladovou angličtinu

Postup

  1. Nejprve je dobré zjistit tag daného zájmena, to kvůli možné tvarové homonymii (his by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici v popisu korpusu, konkrétně anglický tagset je zde. Stejně tak je ale možné zadat do příslušného korpusu lemma his a podívat se do výsledků Frekvence → Vlastní, kde si nastavíme atribut tag. Takto přijdeme i na to, zda jsou vůbec některé tvary his tagované jinak než jako zájmeno.3)
  2. Celý postup si ukážeme na InterCorpu ve verzi 7.
  3. Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (div.srclang=en).

Výsledky pro InterCorp v7 a BNC

lemma tag korpus abs. frekvence rel. frekvence (i.p.m.)
his dps, pnp, unc BNC 409 825 3684
his pp$ InterCorp v7 248 816 1850
his pp$ InterCorp v7 (div.srclang=en) 156 621 2435

BNC má jiné složení než InterCorp. Obsahuje např. i mluvený jazyk, zato mnohem méně právních textů (zastoupených v InterCorpu díky balíčku Acquis Communautaire). Výsledky tudíž nejsou přímočaře porovnatelné.

Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu his (Frekvence → Typy textů → div.srclang):

zdrojový jazyk i.p.m.
angličtina 2435
čeština 4724
ruština 7627
francouzština 1500
němčina 1440
švédština 3046

Celkově se tedy zdá, že zájmeno his je v textech obsahujících i překlady distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.

Srovnávací výzkum na korpusu Jerome

Můžeme podobné srovnání provést třeba pro překladovou češtinu a pokusit se zjistit, jestli je např. frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální text? Této otázce je šitý na míru korpus Jerome. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu he put on his coat a namísto oblékl si kabát použije oblékl si svůj kabát, nebo zda vliv zdrojového jazyka není patrný.

  1. Ze seznamu korpusů si pod štítkem specializovaný vyberte korpus jerome.
  2. Vložte do CQL dotazu patřičný tag: [tag="P[8S].*"]4)
  3. Zjistěte počet výskytů na milion textových slov v češtině v závislosti na různých zdrojových jazycích.
  4. Pokud se chcete procvičit, vytvořte si – vedle vyhledávání v korpusu Jerome – i subkorpusy daných jazyků v korpusu SYN2015: pomocí podmínek určitého zdrojového jazyka (srclang="cs.*" atd.) eliminujte veškeré nepůvodní, překladové texty.

Korpus Jerome v souhrnné statistice (dostupné přes Frekvence → Typy textů úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.5) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:

zdrojový jazyk čeština angličtina němčina francouzština
absolutní frekvence 445 976 311 540 71 700 50 439
relativní frekvence (i.p.m.) 10 493 11 529 11 638 14 208

V korpusu SYN2015 je situace takováto:

zdrojový jazyk čeština angličtina němčina francouzština
absolutní frekvence 698 918 300 955 55 472 37 263
relativní frekvence (i.p.m.) 8771 11 745 11 415 14 712

Výrazně odlišné číslo pro češtinu v obou korpusech vybízí k bližšímu pohledu: jak se to má s přivlastňovacími zájmeny v různých typech textů? (Hledáme v korpusu SYN2015, korpus Jerome neobsahuje žádné publicistické texty.)

skupina textových typů relat. frekvence (i.p.m.)
beletrie 11 432
oborová literatura 9461
publicistika 8360

Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky.

Další možné využití korpusu InterCorp: falešní přátelé

Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český machr a německý Macher ukazují značný rozdíl – německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce.

Konkordance se slovem Macher
  • Vyhledejte si v německé složce InterCorpu verze 6 lemma Gesicht a v jeho české paralele slova obsahující řetězec ksicht: [word=".*ksicht.*"] (nedbejte na zdrojový jazyk).
  • Naopak v české části najděte lemma ksicht a podívejte se na jeho německé ekvivalenty.

Hledání překladů lemmatu Gesicht jako ksicht a naopak v paralelním korpusu InterCorp v6 dává přes třicet dokladů. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po ksichtu, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:

Konkordance se slovem ksicht

Vidíme, že v náhodném vzorku jedenácti dokladů (z celkových 65) je Gesicht ekvivalentem ksichtu pouze čtyřikrát. Z analýzy konkordancí je zřejmé, k jak výraznému významovému posunu směrem k pragmaticky zatíženému, expresivnímu výrazu při převzetí slova do češtiny došlo.


1)
Podobné výsledky zprostředkovává i nástroj Treq
2)
Britský národní korpus je dostupný přes rozhraní KonText pro uživatele z Univerzity Karlovy.
3)
5 tvarů označených v korpusu BNC tagem UNC jsou ve skutečnosti rovněž zájmena.
5)
Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.