Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
manualy:treq [2016/09/12 16:22]
Martin Vavřín [Treq]
manualy:treq [2017/09/25 15:46] (aktuální)
Michal Škrabal [Jak citovat Treq]
Řádek 3: Řádek 3:
 {{ :​manualy:​treq.png?​direct&​200|}} {{ :​manualy:​treq.png?​direct&​200|}}
  
-Aplikace [[http://​treq.korpus.cz|Treq]] slouží k prohledávání česko-cizojazyčných slovníků vytvořených automaticky na základě dat paralelního korpusu [[cnk:​intercorp|InterCorp]]. ​Slouží tak k rychlému vyhledání ​možných ekladových ekvivalentů ​či pro inspiraci ​při hledání synonym.+Aplikace [[http://​treq.korpus.cz|Treq]] slouží k obousměrnému ​prohledávání česko-cizojazyčných a anglicko-cizojazyčných slovníků vytvořených automaticky na základě dat paralelního korpusu [[cnk:​intercorp|InterCorp]]. ​Lze v ní snadno a pohodlně vyhledávat ​možné ekladové ekvivalenty ​či se inspirovat ​při hledání synonym.
  
 Treq je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:​zaciname|registrace]] všem uživatelům na adrese **[[http://​treq.korpus.cz|treq.korpus.cz]]**. Treq je webová aplikace (k jejímu užívání stačí internetový prohlížeč) a je dostupná bez [[kurz:​zaciname|registrace]] všem uživatelům na adrese **[[http://​treq.korpus.cz|treq.korpus.cz]]**.
  
-Při hledání ​je třeba nejprve zvolit cizí jazyk (//Jazyk 2://) a jazyk zadávaného slova (//Hledat v://). Slovo můžeme zadat v konkrétním [[pojmy:​word|tvaru]] nebo jako [[pojmy:​lemma|lemma]] ​(//Lemmata: Ano/Ne//). Můžeme si také vybrat, zda má být výsledek založen na excerpci z beletristického ​[[cnk:​intercorp:​verze8#​obsah_korpusu|jádra]]jednotlivých kolekcí, nebo ze všech textů v dané verzi korpusu [[cnk:​intercorp|InterCorp]] ​(//Omezit na://). Pak slovo zadáme (//​Dotaz://​) a klikneme na //​Hledej//​. ​+Nejdříve zvolíme výchozí jazyk, v němž ​je hledaný výraz, a cílový ​jazyk, do něhož jej chceme přeložit. Slovo můžeme zadat v konkrétním tvaru, v základním slovníkovém tvaru (//Lemmata//), lze vyhledávat i víceslovnou jednotku ​(//Víceslovné//), využít při hledání regulární výrazy ​(//Regulární//) nebo v dotazu nerozlišovat velikost písmen (//A = a//). Můžeme si také vybrat, zda má být výsledek založen na překladech ​beletristického jádra, jednotlivých kolekcí, nebo všech textů v InterCorpu ​(//Omezit na://). Pak slovo zadáme (//​Dotaz://​) a klikneme na //Hledej//. Výsledkem dotazu je seznam nalezených překladů zadaného slova, defaultně setříděných sestupně podle frekvence. Realizaci dané dvojice výrazů v kontextu si lze ověřit pomocí hypertextového odkazu, jimž jsou jednotlivé ekvivalenty opatřeny. Počet výskytů udávaný v rozhraní Treq a KonText se však může lišit -- paralelní dotaz najde i konkordance,​ v nichž potenciální ekvivalent odpovídá jinému slovu.
  
-Výsledkem dotazu je seznam nalezených překladů zadaného slova, implicitně setříděných sestupně podle frekvence. Pro ověření výskytu v textovém okolí je možné si dvojici výrazů vyhledat v rozhraní [[manualy:​kontext:​index|KonText]] dotazem do korpusu InterCorp, který vyvoláme kliknutím na vybraný ekvivalent. Počet výskytů se však může lišit – paralelní dotaz najde i konkordance,​ v nichž potenciální ekvivalent odpovídá jinému slovu. 
 ===== Princip zarovnání ===== ===== Princip zarovnání =====
 +Při přípravě dat pro databázi Treq jsou nejprve z celého korpusu dané jazykové verze InterCorpu vybrány pouze věty, které jsou k češtině zarovnány v poměru 1:1. Výhradně jednoduchá zarovnání používáme proto, že obvykle bývají spolehlivější;​ zvláště v případě automaticky zarovnaných textů tak můžeme předejít zanesení potenciálních chyb.
  
-Originální a překladové texty jsou nejprve na základě statistických výpočtů zarovnány po slovech ​pomocí programu GIZA++((viz [[http://​dx.doi.org/​10.1162/​089120103321337421|Och–Ney 2003]])). ​Zarovnané dvojice slov jsou pak setříděny a sumarizoványVýsledek automatické excerpce není nijak revidovánjako ukazatel relevance překladového ekvivalentu však může ​posloužit relativní frekvence ​íslušné dvojice slov. Čím častěji se ekvivalent ​zadaného slova vyskytl ve srovnání s ostatními ekvivalenty,​ tím větší je pravděpodobnost,​ že je funkční.+Následuje automatické zarovnání po slovech v rámci těchto vět pomocí programu GIZA++((viz [[http://​dx.doi.org/​10.1162/​089120103321337421|Och–Ney 2003]])). ​Ve starších verzích Trequ se využívalo zarovnání pomocí metody //​intersection//,​ které páruje jedno slovo s jedním ekvivalentem,​ např.:  
 +  
 +{{:​manualy:​carky_int.jpg?​300|}} 
 + 
 +{{:​manualy:​carky_int_spoustu_lidi_to_nastvalo.jpg?​450|}} 
 + 
 +Tzn. že v první větě první slovo ve zdrojovém jazyku (0) odpovídá prvnímu slovu v jazyku cílovém (0), druhé slovo (1) odpovídá třetímu slovu (2) atdPočínaje verzí 2.0 byla navíc využita metoda //​grow-diag-final-and//​která umožňuje vytvářet i komplikovanější zarovnání více slov na obou stranách překladu. ​ Takové zarovnání pak může ​vypadat třeba takto: 
 + 
 +{{:​manualy:​carky_gdfa.jpg?​300|}} 
 + 
 +{{:​manualy:​carky_gdfa_spoustu_lidi_to_nastvalo.jpg?​450|}} 
 + 
 +Oproti ​ípadu výše tu druhé slovo ve zdrojovém jazyku (1) neodpovídá pouze třetímu (2), ale též druhému a čtvrtému (1, 3) slovu v jazyku cílovém atd. 
 +Z takovéhoto zarovnání je následně vybráno co největší množství kombinací slov, které toto zarovnání umožňuje (viz též příklad extrahovaných ekvivalentů níže).  
 +V obou případech jsou zarovnané ​dvojice slov setříděny a sečteny, výsledky automatické extrakce však už nejsou nijak revidovány a uživateli jsou poskytnuty formou seznamu nalezených ekvivalentů zadaného výrazu, doplněných o absolutní a relativní frekvenciTyto údaje jsou uživatelovým primárním vodítkem: čím častěji se ekvivalent ​hledaného výrazu ​vyskytl ve srovnání s ostatními ekvivalenty,​ tím vyšší je pravděpodobnost,​ že je funkční.  
 + 
 +V jakém poměru jsou frekvence nalezené v KonTextu s těmi zobrazovanými Treqem, ukazuje přiložená tabulka. Ta vyčísluje různé typy dat v jednotlivých fázích jejich zpracování pro Treq z anglické složky IC v9 (víceslovná varianta). 
 + 
 +{{:​manualy:​treq-tabulka.jpg|}} 
 + 
 +Po dílčích krocích lze sledovat postupný úbytek dat, která jsou ve výsledném slovníku použita. V prvním kroku použijeme pouze zarovnání vět 1:1 – tím přijdeme o 20,7 % vět.  Následně se vyberou na základě zarovnání z programu GIZA++ jedno- a víceslovné ekvivalenty. Vztah mezi velikostí původního korpusu a počtem vyextrahovaných ekvivalentů však nelze jasně předvídat,​ zvláště pak u víceslovných ekvivalentů,​ kde vznikají nejrůznější kombinace stejných slov (viz tučně vysázené dvojice níže). Takto by např. vypadal abecedně řazený soupis česko-anglických párů extrahovaných z druhé příkladové věty: 
 + 
 +//a – and// 
 + 
 +//chybný – bad// 
 + 
 +//krok – move// 
 + 
 +//lidí – people// 
 + 
 +//naštvalo – angry// 
 + 
 +//​**považovalo – been widely regarded as**// 
 + 
 +//​**považovalo za – been widely regarded as**// 
 + 
 +//​**považovalo za – regarded a**// 
 + 
 +//se – made// 
 + 
 +//Spoustu – lot of// 
 + 
 +//to – This// 
 + 
 +//to – very// 
 + 
 +//**za – regarded a**// 
 + 
 +//. – .// 
 + 
 +Ve třetím kroku se v rámci celého textu sečtou řádky, které jsou stejné na obou stranách zarovnání. Tak získáme seznam a frekvenci ekvivalentů. Nakonec, v závěrečném kroku, vyřadíme všechny protějšky obsahující interpunkci,​ čímž obdržíme finální verzi slovníku. U všech jazykových párů, kde je k dispozici lemmatizace na obou stranách zarovnání,​ aplikujeme stejný postup i na lemmatizovanou podobu dat (//na počátek být stvořit vesmír . – in the beginning the universe be create .//).
  
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====
  
-[{{:​manualy:​treq-form.png?​direct&​300|Zadávací formulář}}] +[{{:​manualy:​home.png?​direct&​300|Zadávací formulář}}] 
-[{{:​manualy:​treq-skorapka.png?​direct&​300|Hledání ​česko-anglické ​části}}] +[{{:​manualy:​basic.png?​direct&​300|Jednoduché hledání ​německo-české ​části}}] 
-[{{:​manualy:​treq-warum.png?​direct&​300|Hledání v česko-německé ​části}}]+[{{:​manualy:​regex.png?​direct&​300|Pokročilé hledání (pomocí regulárních výrazů) v anglicko-české ​části}}] 
 + 
 +===== Jak citovat Treq ===== 
 + 
 +<WRAP round tip 80%> 
 +Vavřín, M. – Rosen, A.: Treq. FF UK. Praha 2015. Dostupný z WWW: <​http://​treq.korpus.cz>​. 
 + 
 +Škrabal, M. – Vavřín, M. (2017): Databáze překladových ekvivalentů Treq. //Časopis pro moderní filologii// 99 (2), s. 245–260. 
 +</​WRAP>​ 
  
 ==== Související odkazy ==== ==== Související odkazy ====