Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek InterCorp a pak první jazyk, např. InterCorp v15 - Czech (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci Zarovnané korpusy si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. InterCorp v15 - English. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova pravda, zadáme do prvního jazyka tento výraz s výchozím atributem lemma a dotaz na druhý jazyk necháme prázdný.
Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu pravda v angličtině jsou adjektivní tvary right a true a substantivní truth. Podobné výsledky zprostředkovává i nástroj Treq – 5 nejčastějších protějšků z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Zaškrtnutím okénka vedle těchto ekvivalentů se příslušný výraz či výrazy podbarví v pravé části paralelní konkordance.
Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy E
.
Zároveň lze kliknout levým tlačítkem myši na libovolné slovo v paralelní konkordanci, to se podbarví a rozhraní se v paralelní části pokusí vyhledat jeho cizojazyčný ekvivalent (na základě nejčastějších protějšků podle aplikace Treq).
Pokud chceme prozkoumat věty, kde je pravda přeložena jako truth, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:
Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. frekvenční distribuce nebo kolokace) pak pracují s takto vybraným sloupcem.
Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma pravda a na anglické zvolíme lemma truth nebo true – případně obojí: [lemma="truth|true"]
–, ale s volbou Příklad neobsahuje odpovídající výsledky.
Takto získaný seznam konkordancí můžeme dále třídit pomocí filtrů.
Korpus InterCorp obsahuje velké množství textů, které jsou zpracované a zarovnané automaticky. Mnohdy je proto výhodnější vytvořením vlastního subkorpusu omezit hledání pouze na tu složku InterCorpu, která obsahuje ručně zarovnané texty, tzv. jádro (core). Toho lze nejsnáze dosáhnout vytvořením subkorpusu zvolením atributu korpusu div.group
s hodnotou Core
.
Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte.
Popisu celého korpusu InterCorp se věnuje tato stránka, zde vyjímáme několik zásadních upozornění:
Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.
Projevuje se v distribuci přivlastňovacích zájmen v češtině a angličtině typologický rozdíl mezi jazyky? Zaměřte se na distribuci posesiva his v různých korpusech a subkorpusech:
div.srclang=en
).dotaz | korpus | abs. frekvence | rel. frekvence (i.p.m.) |
---|---|---|---|
[lemma="his" & tag="DPS|PNP|UNC"] | BNC | 409 825 | 3684 |
[tag="PP\$" & lemma="his"] | InterCorp v15 | 484 326 | 2885 |
[tag="PP\$" & lemma="his"] within <text srclang="en" /> | InterCorp v15 (text.srclang=en ) | 319 740 | 1904 |
BNC má jiné složení než InterCorp. Obsahuje např. i mluvený jazyk, zato mnohem méně právních textů (zastoupených v InterCorpu díky balíčku Acquis Communautaire). Výsledky tudíž nejsou přímočaře porovnatelné.
Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu his (Frekvence → Podle typů textů → text.srclang):
zdrojový jazyk | i.p.m. |
---|---|
angličtina | 3735 |
čeština | 5368 |
španělština | 5857 |
ruština | 7584 |
francouzština | 3008 |
němčina | 1805 |
švédština | 3013 |
italština | 1817 |
srbština | 9573 |
Celkově se tedy zdá, že zájmeno his je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.
Podobné srovnání můžeme provést i pro překladovou češtinu: pokusme se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální text. Této otázce je šitý na míru korpus Jerome. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu he put on his coat a namísto oblékl si kabát použije oblékl si svůj kabát, nebo zda vliv zdrojového jazyka není patrný.
[tag="P[8S].*"]3)
srclang="cs.*"
atd.) eliminujte veškeré nepůvodní, překladové texty.
Korpus Jerome v souhrnné statistice (dostupné přes Frekvence → Typy textů úplně dole) uvádí v kolonce opus.status
, že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.4) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:
zdrojový jazyk | čeština | angličtina | němčina | francouzština |
---|---|---|---|---|
absolutní frekvence | 445 976 | 311 540 | 71 700 | 50 439 |
relativní frekvence (i.p.m.) | 10 493 | 11 529 | 11 638 | 14 208 |
V korpusu SYN2015 je situace takováto:
zdrojový jazyk | čeština | angličtina | němčina | francouzština |
---|---|---|---|---|
absolutní frekvence | 698 918 | 300 955 | 55 472 | 37 263 |
relativní frekvence (i.p.m.) | 8771 | 11 745 | 11 415 | 14 712 |
Výrazně odlišné číslo pro češtinu v obou korpusech vybízí k bližšímu pohledu: jak se to má s přivlastňovacími zájmeny v různých typech textů? (Hledáme v korpusu SYN2015, korpus Jerome neobsahuje žádné publicistické texty.)
skupina textových typů | relat. frekvence (i.p.m.) |
---|---|
beletrie | 11 432 |
oborová literatura | 9461 |
publicistika | 8360 |
Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky.
Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český machr a německý Macher ukazují značný rozdíl – německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce.
[word=".*ksicht.*"]
(nedbejte na zdrojový jazyk).Hledání překladů lemmatu Gesicht jako ksicht a naopak v paralelním korpusu InterCorp v15 dává 190 dokladů. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po ksichtu, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: