Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:jerome [2013/12/20 14:13] – vytvořeno Lucie Chlumska
+++ cnk:jerome [2015/08/04 16:43] (aktuální) – [Jak citovat korpus JEROME] Michal Křen
@@ Řádek 1: / Řádek 1: @@
 ====== Korpus JEROME ======
-Korpus Jerome je jednojazyčný srovnatelný korpus (//monolingual comparable corpus//) speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). Pozor, NEjedná se o korpus paralelní, jenž obsahuje překlady a k nim zarovnané originály neboli zdrojové texty; nepřekladová čeština zde tedy hraje roli referenčního korpusu. Korpus je primárně určen translatologům a lingvistům, kteří se chtějí zabývat zkoumáním překladového jazyka, jeho vlastností a charakteristik. Korpus je možné využít i k ověřování teorií o platnosti tzv. překladových univerzálií.
+Korpus Jerome je **jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus** (//monolingual comparable corpus//) speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). Pozor, nejedná se o korpus paralelní, jenž obsahuje překlady a k nim zarovnané originály neboli zdrojové texty; nepřekladová čeština zde tedy hraje roli referenčního korpusu. Korpus je primárně určen translatologům a lingvistům, kteří se chtějí zabývat zkoumáním překladového jazyka -- jeho vlastnostmi a charakteristikami. Korpus je možné využít i k ověřování teorií o platnosti tzv. překladových univerzálií.
-Korpus vznikl na základě databáze textů Českého národního korpusu, konkrétně pak řady SYN (synchronní čeština), z nichž byly ručně vybrány konkrétní texty na základě specifických, __translatologicky relevantních kritérií__. Mezi hlavní kritéria patří zásada, že v korpusu Jerome nemůže být žádný autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu. Podobné pravidlo platí i pro překladatele s tím rozdílem, že překladatel se může v korpusu objevit také max. třikrát, ovšem pokaždé s překladem jiného autora. Tím byla zajištěna dostatečná heterogennost korpusu. Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny překlady a původní díla vydaná v období posledních dvaceti let (1992–2009), aby mohla být zkoumána současná překladová čeština.
+Korpus vznikl((Tento korpus vznikl v roce 2013 v rámci vnitřního grantu FF UK VG027 (Chlumská -- Richterová).)) na základě databáze textů Českého národního korpusu, konkrétně pak řady SYN (synchronní čeština), z nichž byly ručně vybrány konkrétní texty na základě specifických, **translatologicky relevantních kritérií**. Mezi hlavní kritéria patří zásada, že v korpusu Jerome nemůže být žádný autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu. Podobné pravidlo platí i pro překladatele s tím rozdílem, že překladatel se může v korpusu objevit také max. třikrát, ovšem pokaždé s překladem jiného autora. Tím byla zajištěna dostatečná heterogennost korpusu. Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny překlady a původní díla vydaná v období posledních dvaceti let (1992–2009), aby mohla být zkoumána současná překladová čeština.
-Korpus je lemmatizován a morfologicky značkován obdobně jako korpusy řady SYN. Kromě standardních informací o textu, jako je název, autor, rok a místo vydání, překladatel a zdrojový jazyk, byla anotace doplněna o údaje o tom, zda se jedná o překlad nebo ne (status), o prvním vydání textu (prvnivyd), o pohlaví autora (autor_pohlavi) i překladatele (preklad_pohlavi).
+Korpus je lemmatizován a morfologicky značkován obdobně jako korpusy řady SYN. Kromě standardních informací o textu, jako je název, autor, rok a místo vydání, překladatel a zdrojový jazyk, byla **anotace** doplněna o údaje o tom, zda se jedná o překlad nebo ne (status), o prvním vydání textu (prvnivyd), o pohlaví autora (autor_pohlavi) i překladatele (preklad_pohlavi). Na korpusu lze tedy např. provádět výzkum jazyka překladatelů a překladatelek, příp. kolektivu.
-Tento korpus vznikl v roce 2013 v rámci vnitřního grantu VG027 a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_(rom%C3%A1n)|George Orwella]] **1984** (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991).  Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca [[pojmy:pozice|100 tisíc korpusových pozic]], a je morfologicky [[pojmy:tag|označkovaný]]. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické [[pojmy:morfologicka_analyza|morfologické analýze]], takže nyní je tento korpus označkovaný takřka bezchybně.
+Korpus Jerome byl sestaven tak, aby odrážel **skutečnou situaci překladové literatury** u nás. Neobsahuje tedy stejné množství textů ze všech jazyků – což by bylo při této velikosti korpusu neuskutečnitelné –, nýbrž zhruba odpovídá poměru překládaných jazyků, jak jej uvádí statistiky Národní knihovny a MŠMT ([[http://new.nipos-mk.cz/?cat=126]]). Z toho vyplývá, že např. knih přeložených z angličtiny se u nás vydá přibližně třikrát více než z druhého nejčastějšího jazyka; korpus Jerome tuto skutečnost svým složením reflektuje.
-Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL:
+Aby však bylo možné korpus využít i pro výzkum překladových univerzálií, který vyžaduje vyvážený korpus z hlediska zdrojového jazyka, byl v rámci korpusu Jerome vytvořen **subkorpus**, který obsahuje přibližně stejný počet tokenů (cca 100 000) ze všech zahrnutých jazyků. Jeho velikost je nevyhnutelně menší, 5 mil. tokenů. Opět zahrnuje jak beletrii, tak odbornou literaturu. V beletristické části nalezneme texty přeložené ze 14 jazyků (vč. románských, germánských, slovanských i ugrofinských), v odborné literatuře jsou texty přeložené z 6 jazyků (EN, GE, FR, IT, PO, RU).  K překladové části subkorpusu byla současně vybrána i srovnatelná část nepřekladová. Subkorpus (překladovou i nepřekladovou část) lze zobrazit jednoduchým vyfiltrováním textů, jež mají v anotaci vyplněnou hodnotu sub_balance (beletrie, odborná).
-  * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]],
+===== Jak citovat korpus JEROME =====
-  * korpus **orw-mte**, který je značkován původními značkami vytvořenými v [[http://nl.ijs.si/ME/|projektu EU Multext-East]]. Podrobný přehled těchto značek včetně příkladů naleznete [[http://korpus.cz/orwell_znacky.php|právě zde]].
+<WRAP round tip 60%>
+Chlumská, L.: //JEROME: jednojazyčný srovnatelný korpus pro výzkum překladové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz
+</WRAP>
-Pro práci s oběma podobami korpusu ORWELL se používá standardní vyhledávací [[pojmy:korpusovy_manazer|manažer]].
-Tento korpus vznikl v roce 2013 v rámci vnitřního grantu FF UK VG027 (Chlumská -- Richterová).

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence