Specifika vyhledávání v paralelním korpusu

Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek InterCorp a pak první jazyk, např. InterCorp v10 - Czech (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).

Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci Zarovnané korpusy si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. InterCorp v10 - English. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.

První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova pravda, zadáme do prvního jazyka jako typ dotazu Lemma pravda a dotaz na druhý jazyk necháme prázdný.

Výběr korpusu

Zadání dotazu na lemma pravda

Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu pravda v angličtině je adjektivní true a substantivní truth.¹⁾.

Vyhodnocení dotazu na lemma pravda v češtině

Pokud chceme prozkoumat věty, kde je pravda přeložena jako truth, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:

Konkordance českého lemmatu pravda a anglického truth

Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. frekvenční distribuce nebo kolokace) pak pracují s takto vybraným sloupcem.

Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma pravda a na anglické zvolíme lemma truth nebo true – případně obojí: [lemma="truth|true"] –, ale s volbou NEobsahuje.

Dotaz na lemma pravda, který neobsahuje lemmata true či truth

Vyhodnocení dotazu na lemma pravda, který neobsahuje lemmata true či truth

Takto získaný seznam konkordancí můžeme dále třídit pomocí filtrů.

Korpus InterCorp obsahuje velké množství textů, které jsou zpracované a zarovnané automaticky. Mnohdy je proto výhodnější vytvořením vlastního subkorpusu omezit hledání pouze na tu složku InterCorpu, která obsahuje ručně zarovnané texty, tzv. jádro (core). Toho lze nejsnáze dosáhnout vytvořením subkorpusu zvolením atributu korpusu div.group s hodnotou Core.

Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte.

Specifika korpusů řady InterCorp

Popisu celého korpusu InterCorp se věnuje tato stránka, zde vyjímáme několik zásadních upozornění:

Ne každý jazyk v korpusu InterCorp je lemmatizovaný nebo tagovaný, tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz seznam.
Způsob tagování je pro různé jazyky odlišný – může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu.
Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can’t nebo I’m, které tagger rozdělí na dvě slova (ca n’t a I ’m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś, rozdělenými na była m a gdyby ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. Dotaz na celou spřežku je nutné zadat jako Fráze a části spřežky oddělit mezerou.
Paralelní korpus InterCorp se liší od korpusů řady SYN i některými strukturními jednotkami a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou Zobrazení → Korpusová nastavení.)

Srovnávací výzkum na korpusu InterCorp verze 10

Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.

Projevuje se v distribuci přivlastňovacích zájmen v češtině a angličtině typologický rozdíl mezi jazyky? Zaměřte se na distribuci posesiva his v různých korpusech a subkorpusech:

BNC²⁾
InterCorp – anglická složka
InterCorp – subkorpus obsahující pouze původní, nepřekladovou angličtinu

Postup

Nejprve je dobré zjistit tag daného zájmena, to kvůli možné tvarové homonymii (his by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici v popisu korpusu, konkrétně anglický tagset je zde. Stejně tak je ale možné zadat do příslušného korpusu lemma his a podívat se do výsledků Frekvence → Vlastní, kde si nastavíme atribut tag. Takto přijdeme i na to, zda jsou vůbec některé tvary his tagované jinak než jako zájmeno.³⁾
Celý postup si ukážeme na InterCorpu ve verzi 10.
Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (div.srclang=en).

Výsledky pro InterCorp v10 a BNC

dotaz	korpus	abs. frekvence	rel. frekvence (i.p.m.)
`[lemma="his" & tag="DPS\|PNP\|UNC"]`	BNC	409 825	3684
`[tag="PP\$" & lemma="his"]`	InterCorp v10	365 903	2431
`[tag="PP\$" & lemma="his"] within <div srclang="en" />`	InterCorp v10 (`div.srclang=en`)	253 046	3304

BNC má jiné složení než InterCorp. Obsahuje např. i mluvený jazyk, zato mnohem méně právních textů (zastoupených v InterCorpu díky balíčku Acquis Communautaire). Výsledky tudíž nejsou přímočaře porovnatelné.

Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu his (Frekvence → Podle typů textů → div.srclang):

zdrojový jazyk	i.p.m.
angličtina	3304
čeština	5257
ruština	7584
francouzština	2059
němčina	1457
švédština	3013

Celkově se tedy zdá, že zájmeno his je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.

Srovnávací výzkum na korpusu Jerome

Podobné srovnání můžeme provést i pro překladovou češtinu: pokusme se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální text. Této otázce je šitý na míru korpus Jerome. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu he put on his coat a namísto oblékl si kabát použije oblékl si svůj kabát, nebo zda vliv zdrojového jazyka není patrný.

Ze seznamu korpusů si pod štítkem specializovaný vyberte korpus jerome.
Vložte do CQL dotazu patřičný tag: [tag="P[8S].*"]⁴⁾
Zjistěte počet výskytů na milion textových slov v češtině v závislosti na různých zdrojových jazycích.
Pokud se chcete procvičit, vytvořte si – vedle vyhledávání v korpusu Jerome – i subkorpusy daných jazyků v korpusu SYN2015: pomocí podmínek určitého zdrojového jazyka (srclang="cs.*" atd.) eliminujte veškeré nepůvodní, překladové texty.

Korpus Jerome v souhrnné statistice (dostupné přes Frekvence → Typy textů úplně dole) uvádí v kolonce opus.status, že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.⁵⁾ Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:

zdrojový jazyk	čeština	angličtina	němčina	francouzština
absolutní frekvence	445 976	311 540	71 700	50 439
relativní frekvence (i.p.m.)	10 493	11 529	11 638	14 208

V korpusu SYN2015 je situace takováto:

zdrojový jazyk	čeština	angličtina	němčina	francouzština
absolutní frekvence	698 918	300 955	55 472	37 263
relativní frekvence (i.p.m.)	8771	11 745	11 415	14 712

Výrazně odlišné číslo pro češtinu v obou korpusech vybízí k bližšímu pohledu: jak se to má s přivlastňovacími zájmeny v různých typech textů? (Hledáme v korpusu SYN2015, korpus Jerome neobsahuje žádné publicistické texty.)

skupina textových typů	relat. frekvence (i.p.m.)
beletrie	11 432
oborová literatura	9461
publicistika	8360

Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky.

Další možné využití korpusu InterCorp: falešní přátelé

Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český machr a německý Macher ukazují značný rozdíl – německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce.

Konkordance se slovem Macher

Vyhledejte si v německé složce InterCorpu verze 10 lemma Gesicht a v jeho české paralele slova obsahující řetězec ksicht: [word=".*ksicht.*"] (nedbejte na zdrojový jazyk).
Naopak v české části najděte lemma ksicht a podívejte se na jeho německé ekvivalenty.

Hledání překladů lemmatu Gesicht jako ksicht a naopak v paralelním korpusu InterCorp v10 dává přes 170 dokladů. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po ksichtu, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: