AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus JEROME

Korpus Jerome je jednojazyčný srovnatelný korpus (monolingual comparable corpus) speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). Pozor, NEjedná se o korpus paralelní, jenž obsahuje překlady a k nim zarovnané originály neboli zdrojové texty; nepřekladová čeština zde tedy hraje roli referenčního korpusu. Korpus je primárně určen translatologům a lingvistům, kteří se chtějí zabývat zkoumáním překladového jazyka, jeho vlastností a charakteristik. Korpus je možné využít i k ověřování teorií o platnosti tzv. překladových univerzálií.

Korpus vznikl na základě databáze textů Českého národního korpusu, konkrétně pak řady SYN (synchronní čeština), z nichž byly ručně vybrány konkrétní texty na základě specifických, translatologicky relevantních kritérií. Mezi hlavní kritéria patří zásada, že v korpusu Jerome nemůže být žádný autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu. Podobné pravidlo platí i pro překladatele s tím rozdílem, že překladatel se může v korpusu objevit také max. třikrát, ovšem pokaždé s překladem jiného autora. Tím byla zajištěna dostatečná heterogennost korpusu. Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny překlady a původní díla vydaná v období posledních dvaceti let (1992–2009), aby mohla být zkoumána současná překladová čeština.

Korpus je lemmatizován a morfologicky značkován obdobně jako korpusy řady SYN. Kromě standardních informací o textu, jako je název, autor, rok a místo vydání, překladatel a zdrojový jazyk, byla anotace doplněna o údaje o tom, zda se jedná o překlad nebo ne (status), o prvním vydání textu (prvnivyd), o pohlaví autora (autor_pohlavi) i překladatele (preklad_pohlavi).

Tento korpus vznikl v roce 2013 v rámci vnitřního grantu VG027 a tvoří jej text románu George Orwella 1984 (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky označkovaný. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické morfologické analýze, takže nyní je tento korpus označkovaný takřka bezchybně.

Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL:

  • korpus orw-mte, který je značkován původními značkami vytvořenými v projektu EU Multext-East. Podrobný přehled těchto značek včetně příkladů naleznete právě zde.

Pro práci s oběma podobami korpusu ORWELL se používá standardní vyhledávací manažer.

Tento korpus vznikl v roce 2013 v rámci vnitřního grantu FF UK VG027 (Chlumská – Richterová).