AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:paralelni [2013/09/26 22:07] – [Paralelní korpus] pavelvondrickapojmy:paralelni [2019/08/21 12:35] (aktuální) luciechlumska
Řádek 1: Řádek 1:
 ====== Paralelní korpus ====== ====== Paralelní korpus ======
  
-Jeden z [[pojmy:korpus#typy_korpusu|typů korpusů]], jehož účelem je rozšířit metodologii, propracovávanou v rámci korpusové lingvistiky původně pouze pro jeden jazyk, také na výzkum kontrastivní (mezijazykové srovnání). Paralelní korpusy se lí na **srovnatelné** (angl. //comparable//) a **překladové** (angl. //translational//). +Jeden z [[pojmy:korpus#typy_korpusu|typů korpusů]], jehož účelem je rozšířit metodologii, propracovávanou v rámci korpusové lingvistiky původně pouze pro jeden jazyk, také na výzkum kontrastivní (mezijazykové srovnání) a translatologický (porovnání jazyka překladu s nepřekladovými texty). Ačkoli dříve se pojmem paralelní korpusy souhrnně označovaly všechny typy vícejazyčných korpusů (vč. korpusů [[pojmy:srovnatelny|srovnatelných]]), v současné době je termín paralelní korpus vyhrazen pro takový vícejazyčný korpus, který **obsahuje originální texty v jednom jazyce a jejich překlady do jiného jazyka/jazyků**. Podle počtu jazyků můžeme rozlišovat paralelní korpus **dvoujazyčný** (angl. //bilingual//) nebo **vícejazyčný** (angl. //multilingual//). V závislosti na směru překladu pak může jít o korpus **jednosměrný** (angl. //unidirectional//) zahrnující např. jen anglické originály jejich české překlady nebo **obousměrný** (angl. //bidirectional//) zahrnující např. i české originály a jejich anglické eklady. Pokud je podíl textů v obou směrech vyvážený, mluví se někdy také o tzv. korpusu **recipročním** (angl. //reciprocal//).
  
-**Srovnatelné paralelní korpusy** jsou korpusy různých jazycíchkteré usilují o toaby jejich obsah byl srovnatelný, a to jak kvantitou (tedy aby byly stejně velké), tak kvalitou (aby obsahovaly texty stejného typu, žánruodborného nebo jinak specifického jazyka).+Základní vlastností paralelního korpusu, skládajícího se z části překladové (angl. //translational//) a originální, bývá **zarovnání** (angl. [[pojmy:alignment|alignment]]) rámci stejného segmentu textu u obou jazyků (odstavcesouvětípopř. slova či fráze)přičemž nejčastěji bývají paralelní korpusy zarovnány po větách či souvětích. Uživatel tak může prohledávat korpus (libovolnou jazykovou mutaci textu) sledovat jednotlivá překladová řešení v různých textech (od různých autorů a překladatelů), zjišťovat jejich četnosti a závislost na kontextu. Ačkoli originální text by vždy měl být součástí paralelního korpusuv rámci vícejazyčných paralelních korpusů lze samozřejmě zkoumat též dva či více překladů stejného textu v různých jazycích
  
-**ekladové paralelní korpusy** jsou složeny z originálů a překladů stejných textů, které jsou vzájemně zarovnány (angl. [[pojmy:alignment|aligned]]) na jednotkách různé úrovně (odstavec, věta/skupina vět, popř. slovo nebo fráze). Uživatel tak může prohledávat korpus (libovolnou jazykovou mutaci textu) a sledovat jednotlivá překladová řešení v různých textech (od různých autorů a překladatelů), zjišťovat jejich četnosti a závislost na kontextu. Překladové paralelní korpusy (dvou jazyků) samozřejmě nemusejí obsahovat pouze originály a překlady, ale mohou obsahovat též dvojici překladů stejného textu ze třetího jazyka.+íkladem vícejazyčného paralelního korpusu je projekt ČNK [[cnk:intercorp|InterCorp]].
  
-Paralelní korpusy jsou (dnes zatím spíše potenciálně) zdrojem dat pro kvalitnější překladové slovníky, kontrastivní gramatiky a studium specifických rysů jednotlivých jazyků i rozdílů mezi jazykem běžným a jazykem překladovým; jsou též vítaným praktickým zdrojem dat pro překladatele, překladová cvičení a jazykovou výuku+Paralelní korpusy jsou cenným zdrojem dat pro překladové slovníky, kontrastivní gramatiky a studium specifických rysů jednotlivých jazyků i rozdílů mezi jazykem běžným a jazykem překladovým; jsou též vítaným praktickým zdrojem dat pro překladatele, překladová cvičení a jazykovou výuku.
- +
-===== Paralelní korpus InterCorp ===== +
- +
-Vedle korpusů jednojazyčných se v rámci projektu ČNK od roku 2005 buduje vícejazyčný překladový paralelní korpus ([[cnk:intercorp|InterCorp]]), zahrnující texty v češtině a více než 27 jazycích v celkovém objemu 91 mil. slov (stav k roku 2012); počet jazyků ani velikost jednotlivých jazykových korpusů nejsou uzavřeny, nejde tedy o korpus(y) [[pojmy:referencni|referenční]]. InterCorp je mnohostranný jak co do typů textů, tak jazyků; v zásadě je přitom [[pojmy:synchronni|synchronní]] (s texty po r. 1945). Jeho kvalitativním základem je manuálně zarovnávaná složka překladů beletristických, popř. obecně známých textů odborných, doplněná automaticky zarovnanými texty z mnohojazyčné legislativy EU, žurnalistických překladových projektů Syndicate, EuroPress apod. Buduje se se snahou o co nejširší užitnost, opřenou o zarovnávání textů alespoň na úrovni vět, a postupně se obohacuje o [[pojmy:lemma|lemmatizaci]] a [[pojmy:tag|morfologické značkování]] ve všech jazycích, kde jsou patřičné nástroje k dispozici.+
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[pojmy:alignment|Alignment]] • [[cnk:intercorp|InterCorp]]+[[pojmy:alignment|Alignment]] • [[cnk:intercorp|InterCorp]] • [[pojmy:korpusy?&#vyber_paralelnich_korpusu|Přehled paralelních korpusů]]
 </WRAP> </WRAP>