AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Paralelní korpus

Jeden z typů korpusů, jehož účelem je umožnit převést stejnou metodologii, propracovávanou v rámci korpusové lingvistiky původně pouze pro jednojazyčné korpusy, také na výzkum kontrastivní (mezijazykové srovnání). Paralelní korpus je složen z originálů a překladových textů, které mohou být vzájemně zarovnány (tzv. alignment) na jednotkách různé úrovně (odstavec, věta/skupina vět, popř. slovo). Uživatel tak může prohledávat korpus (libovolnou jazykovou mutaci textu) a sledovat jednotlivá překladová řešení v různých textech (od různých autorů a překladatelů), zjišťovat jejich četnosti a kontext.

Paralelní korpusy jsou (dnes zatím spíše potenciálně) zdrojem dat pro kvalitnější překladové slovníky, kontrastivní gramatiky a studium specifických rysů překladového jazyka; jsou i vítaným praktickým zdrojem dat pro překladatele a překladová cvičení.

Paralelní korpus InterCorp

Vedle korpusů jednojazyčných se v rámci projektu ČNK od roku 2005 buduje vícejazyčný korpus paralelní (InterCorp), zahrnující texty v češtině a jejich překlady do jednoho nebo více z celkem 27 jazyků v celkovém objemu 91 mil. slov (stav roku 2012); počet jazyků není uzavřen. InterCorp je mnohostranný jak co do typů textů tak jazyků, v zásadě je přitom synchronní (s texty po r. 1945). Jeho základem je stále složka překladů beletristických, popř. obecně známých textů odborných (ale i textů EU, žurnalistických aj.). Buduje se se snahou o co nejširší užitnost, opřenou o zarovnávání textů (alignment) minimálně na úroveň odstavců, často ale i vět aj. a postupně se obohacuje i o lemmatizaci a morfologické značkování.

Související odkazy