AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
cnk:jerome [2013/12/20 14:44] luciechlumskacnk:jerome [2013/12/20 14:46] luciechlumska
Řádek 7: Řádek 7:
 Korpus je lemmatizován a morfologicky značkován obdobně jako korpusy řady SYN. Kromě standardních informací o textu, jako je název, autor, rok a místo vydání, překladatel a zdrojový jazyk, byla **anotace** doplněna o údaje o tom, zda se jedná o překlad nebo ne (status), o prvním vydání textu (prvnivyd), o pohlaví autora (autor_pohlavi) i překladatele (preklad_pohlavi). Na korpusu lze tedy např. provádět výzkum jazyka překladatelů a překladatelek, příp. kolektivu.  Korpus je lemmatizován a morfologicky značkován obdobně jako korpusy řady SYN. Kromě standardních informací o textu, jako je název, autor, rok a místo vydání, překladatel a zdrojový jazyk, byla **anotace** doplněna o údaje o tom, zda se jedná o překlad nebo ne (status), o prvním vydání textu (prvnivyd), o pohlaví autora (autor_pohlavi) i překladatele (preklad_pohlavi). Na korpusu lze tedy např. provádět výzkum jazyka překladatelů a překladatelek, příp. kolektivu. 
  
-Korpus Jerome byl sestaven tak, aby odrážel **skutečnou situaci překladové literatury** u nás. Neobsahuje tedy stejné množství textů ze všech jazyků – což by bylo při této velikosti korpusu nereálné –, nýbrž odpovídá zhruba poměru překládaných jazyků, jak jej uvádí statistiky Národní knihovny a MŠMT ([[http://new.nipos-mk.cz/?cat=126]]). Z toho vyplývá, že např. knih přeložených z angličtiny se u nás vydá přibližně třikrát více než z druhého nejčastějšího jazyka; korpus Jerome tuto skutečnost svým složením reflektuje. +Korpus Jerome byl sestaven tak, aby odrážel **skutečnou situaci překladové literatury** u nás. Neobsahuje tedy stejné množství textů ze všech jazyků – což by bylo při této velikosti korpusu neuskutečnitelné –, nýbrž zhruba odpovídá poměru překládaných jazyků, jak jej uvádí statistiky Národní knihovny a MŠMT ([[http://new.nipos-mk.cz/?cat=126]]). Z toho vyplývá, že např. knih přeložených z angličtiny se u nás vydá přibližně třikrát více než z druhého nejčastějšího jazyka; korpus Jerome tuto skutečnost svým složením reflektuje.
- +
-Aby však bylo možné korpus využít i pro výzkum překladových univerzálií, jenž vyžaduje vyvážený korpus z hlediska zdrojového jazyka, byl v rámci korpusu Jerome vytvořen **subkorpus**, který obsahuje přibližně stejný počet tokenů (cca 100 000) ze všech zahrnutých jazyků. Jeho velikost je nevyhnutelně menší, 5 mil. tokenů. Opět zahrnuje jak beletrii, tak odbornou literaturu. V beletristické části nalezneme texty přeložené ze 14 jazyků (vč. románských, germánských, slovanských i ugrofinských), v odborné literatuře jsou texty přeložené z 6 jazyků (EN, GE, FR, IT, PO, RU).  K překladové části subkorpusu byla současně vybrána i srovnatelná část nepřekladová. Subkorpus (překladovou i nepřekladovou část) lze zobrazit jednoduchým vyfiltrováním textů, jež mají v anotaci vyplněnou hodnotu sub_balance (beletrie, odborná).  +
- +
-  * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]], +
-  * korpus **orw-mte**, který je značkován původními značkami vytvořenými v +
  
 +Aby však bylo možné korpus využít i pro výzkum překladových univerzálií, který vyžaduje vyvážený korpus z hlediska zdrojového jazyka, byl v rámci korpusu Jerome vytvořen **subkorpus**, který obsahuje přibližně stejný počet tokenů (cca 100 000) ze všech zahrnutých jazyků. Jeho velikost je nevyhnutelně menší, 5 mil. tokenů. Opět zahrnuje jak beletrii, tak odbornou literaturu. V beletristické části nalezneme texty přeložené ze 14 jazyků (vč. románských, germánských, slovanských i ugrofinských), v odborné literatuře jsou texty přeložené z 6 jazyků (EN, GE, FR, IT, PO, RU).  K překladové části subkorpusu byla současně vybrána i srovnatelná část nepřekladová. Subkorpus (překladovou i nepřekladovou část) lze zobrazit jednoduchým vyfiltrováním textů, jež mají v anotaci vyplněnou hodnotu sub_balance (beletrie, odborná). 
  
 Pro práci s korpusem JEROME se používá standardní vyhledávací [[pojmy:korpusovy_manazer|manažer]]. Pro práci s korpusem JEROME se používá standardní vyhledávací [[pojmy:korpusovy_manazer|manažer]].
  
 Tento korpus vznikl v roce 2013 v rámci vnitřního grantu FF UK VG027 (Chlumská -- Richterová). Tento korpus vznikl v roce 2013 v rámci vnitřního grantu FF UK VG027 (Chlumská -- Richterová).