AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Paralelní korpus

Jeden z typů korpusů, jehož účelem je rozšířit metodologii, propracovávanou v rámci korpusové lingvistiky původně pouze pro jeden jazyk, také na výzkum kontrastivní (mezijazykové srovnání). Paralelní korpusy se dělí na srovnatelné (angl. comparable) a překladové (angl. translational).

Srovnatelné paralelní korpusy jsou korpusy v různých jazycích, které usilují o to, aby jejich obsah byl srovnatelný, a to jak kvantitou (tedy aby byly stejně velké), tak kvalitou (aby obsahovaly texty stejného typu, žánru, odborného nebo jinak specifického jazyka).

Překladové paralelní korpusy jsou složeny z originálů a překladů stejných textů, které jsou vzájemně zarovnány (angl. aligned) na jednotkách různé úrovně (odstavec, věta/skupina vět, popř. slovo nebo fráze). Uživatel tak může prohledávat korpus (libovolnou jazykovou mutaci textu) a sledovat jednotlivá překladová řešení v různých textech (od různých autorů a překladatelů), zjišťovat jejich četnosti a závislost na kontextu. Překladové paralelní korpusy (dvou jazyků) samozřejmě nemusejí obsahovat pouze originály a překlady, ale mohou obsahovat též dvojici překladů stejného textu ze třetího jazyka.

Paralelní korpusy jsou (dnes zatím spíše potenciálně) zdrojem dat pro kvalitnější překladové slovníky, kontrastivní gramatiky a studium specifických rysů jednotlivých jazyků i rozdílů mezi jazykem běžným a jazykem překladovým; jsou též vítaným praktickým zdrojem dat pro překladatele, překladová cvičení a jazykovou výuku.

Paralelní korpus InterCorp

Vedle korpusů jednojazyčných se v rámci projektu ČNK od roku 2005 buduje vícejazyčný překladový paralelní korpus (InterCorp), zahrnující texty v češtině a více než 27 jazycích v celkovém objemu 91 mil. slov (stav k roku 2012); počet jazyků ani velikost jednotlivých jazykových korpusů nejsou uzavřeny, nejde tedy o korpus(y) referenční. InterCorp je mnohostranný jak co do typů textů, tak jazyků; v zásadě je přitom synchronní (s texty po r. 1945). Jeho kvalitativním základem je manuálně zarovnávaná složka překladů beletristických, popř. obecně známých textů odborných, doplněná automaticky zarovnanými texty z mnohojazyčné legislativy EU, žurnalistických překladových projektů Syndicate, EuroPress apod. Buduje se se snahou o co nejširší užitnost, opřenou o zarovnávání textů alespoň na úrovni vět, a postupně se obohacuje o lemmatizaci a morfologické značkování ve všech jazycích, kde jsou patřičné nástroje k dispozici.

Související odkazy