Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
manualy:treq [2017/04/06 15:02]
Michal Škrabal [Princip zarovnání]
manualy:treq [2017/09/25 15:46]
Michal Škrabal [Jak citovat Treq]
Řádek 14: Řádek 14:
 Následuje automatické zarovnání po slovech v rámci těchto vět pomocí programu GIZA++((viz [[http://​dx.doi.org/​10.1162/​089120103321337421|Och–Ney 2003]])). Ve starších verzích Trequ se využívalo zarovnání pomocí metody //​intersection//,​ které páruje jedno slovo s jedním ekvivalentem,​ např.: ​ Následuje automatické zarovnání po slovech v rámci těchto vět pomocí programu GIZA++((viz [[http://​dx.doi.org/​10.1162/​089120103321337421|Och–Ney 2003]])). Ve starších verzích Trequ se využívalo zarovnání pomocí metody //​intersection//,​ které páruje jedno slovo s jedním ekvivalentem,​ např.: ​
    
-OBR1+{{:​manualy:​carky_int.jpg?300|}}
  
-OBR2+{{:​manualy:​carky_int_spoustu_lidi_to_nastvalo.jpg?450|}}
  
 Tzn. že v první větě první slovo ve zdrojovém jazyku (0) odpovídá prvnímu slovu v jazyku cílovém (0), druhé slovo (1) odpovídá třetímu slovu (2) atd. Počínaje verzí 2.0 byla navíc využita metoda //​grow-diag-final-and//,​ která umožňuje vytvářet i komplikovanější zarovnání více slov na obou stranách překladu. ​ Takové zarovnání pak může vypadat třeba takto: Tzn. že v první větě první slovo ve zdrojovém jazyku (0) odpovídá prvnímu slovu v jazyku cílovém (0), druhé slovo (1) odpovídá třetímu slovu (2) atd. Počínaje verzí 2.0 byla navíc využita metoda //​grow-diag-final-and//,​ která umožňuje vytvářet i komplikovanější zarovnání více slov na obou stranách překladu. ​ Takové zarovnání pak může vypadat třeba takto:
  
-OBR3+{{:​manualy:​carky_gdfa.jpg?300|}}
  
-OBR4+{{:​manualy:​carky_gdfa_spoustu_lidi_to_nastvalo.jpg?450|}}
  
 Oproti případu výše tu druhé slovo ve zdrojovém jazyku (1) neodpovídá pouze třetímu (2), ale též druhému a čtvrtému (1, 3) slovu v jazyku cílovém atd. Oproti případu výše tu druhé slovo ve zdrojovém jazyku (1) neodpovídá pouze třetímu (2), ale též druhému a čtvrtému (1, 3) slovu v jazyku cílovém atd.
 Z takovéhoto zarovnání je následně vybráno co největší množství kombinací slov, které toto zarovnání umožňuje (viz též příklad extrahovaných ekvivalentů níže). ​ Z takovéhoto zarovnání je následně vybráno co největší množství kombinací slov, které toto zarovnání umožňuje (viz též příklad extrahovaných ekvivalentů níže). ​
-V obou případech jsou zarovnané dvojice slov setříděny a sečteny, výsledky automatické extrakce však už nejsou nijak revidovány a uživateli jsou poskytnuty formou seznamu nalezených ekvivalentů zadaného výrazu, doplněných o absolutní a relativní frekvenci.+V obou případech jsou zarovnané dvojice slov setříděny a sečteny, výsledky automatické extrakce však už nejsou nijak revidovány a uživateli jsou poskytnuty formou seznamu nalezených ekvivalentů zadaného výrazu, doplněných o absolutní a relativní frekvenci. ​Tyto údaje jsou uživatelovým primárním vodítkem: čím častěji se ekvivalent hledaného výrazu vyskytl ve srovnání s ostatními ekvivalenty,​ tím vyšší je pravděpodobnost,​ že je funkční.  
 V jakém poměru jsou frekvence nalezené v KonTextu s těmi zobrazovanými Treqem, ukazuje přiložená tabulka. Ta vyčísluje různé typy dat v jednotlivých fázích jejich zpracování pro Treq z anglické složky IC v9 (víceslovná varianta). V jakém poměru jsou frekvence nalezené v KonTextu s těmi zobrazovanými Treqem, ukazuje přiložená tabulka. Ta vyčísluje různé typy dat v jednotlivých fázích jejich zpracování pro Treq z anglické složky IC v9 (víceslovná varianta).
  
-OBR5 TAB+{{:​manualy:​treq-tabulka.jpg|}}
  
-Po dílčích krocích lze sledovat postupný úbytek dat, která jsou ve výsledném slovníku použita. V prvním kroku použijeme pouze zarovnání vět 1:1 – tím přijdeme o 20,7 % vět.  Následně se vyberou na základě zarovnání z programu GIZA++ víceslovné ekvivalenty. Vztah mezi velikostí původního korpusu a počtem vyextrahovaných ekvivalentů však nelze jasně předvídat,​ zvláště pak u víceslovných ekvivalentů,​ kde vznikají nejrůznější kombinace stejných slov (viz tučně vysázené dvojice níže). Takto by např. vypadal abecedně řazený soupis česko-anglických párů extrahovaných z druhé příkladové věty:+Po dílčích krocích lze sledovat postupný úbytek dat, která jsou ve výsledném slovníku použita. V prvním kroku použijeme pouze zarovnání vět 1:1 – tím přijdeme o 20,7 % vět.  Následně se vyberou na základě zarovnání z programu GIZA++ ​jedno- a víceslovné ekvivalenty. Vztah mezi velikostí původního korpusu a počtem vyextrahovaných ekvivalentů však nelze jasně předvídat,​ zvláště pak u víceslovných ekvivalentů,​ kde vznikají nejrůznější kombinace stejných slov (viz tučně vysázené dvojice níže). Takto by např. vypadal abecedně řazený soupis česko-anglických párů extrahovaných z druhé příkladové věty:
  
 //a – and// //a – and//
Řádek 65: Řádek 66:
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====
  
-[{{:​manualy:​treq-form.png?​direct&​300|Zadávací formulář}}] +[{{:​manualy:​home.png?​direct&​300|Zadávací formulář}}] 
-[{{:​manualy:​treq-skorapka.png?​direct&​300|Hledání ​česko-anglické ​části}}] +[{{:​manualy:​basic.png?​direct&​300|Jednoduché hledání ​německo-české ​části}}] 
-[{{:​manualy:​treq-warum.png?​direct&​300|Hledání v česko-německé ​části}}]+[{{:​manualy:​regex.png?​direct&​300|Pokročilé hledání (pomocí regulárních výrazů) v anglicko-české ​části}}] 
 + 
 +===== Jak citovat Treq ===== 
 + 
 +<WRAP round tip 80%> 
 +Vavřín, M. – Rosen, A.: Treq. FF UK. Praha 2015. Dostupný z WWW: <​http://​treq.korpus.cz>​. 
 + 
 +Škrabal, M. – Vavřín, M. (2017): Databáze překladových ekvivalentů Treq. //Časopis pro moderní filologii// 99 (2), s. 245–260. 
 +</​WRAP>​ 
  
 ==== Související odkazy ==== ==== Související odkazy ====