AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
manualy:treq [2017/04/06 14:42] – [Treq] michalskrabalmanualy:treq [2017/04/06 15:02] – [Princip zarovnání] michalskrabal
Řádek 10: Řádek 10:
  
 ===== Princip zarovnání ===== ===== Princip zarovnání =====
 +Při přípravě dat pro databázi Treq jsou nejprve z celého korpusu dané jazykové verze InterCorpu vybrány pouze věty, které jsou k češtině zarovnány v poměru 1:1. Výhradně jednoduchá zarovnání používáme proto, že obvykle bývají spolehlivější; zvláště v případě automaticky zarovnaných textů tak můžeme předejít zanesení potenciálních chyb.
  
-Originální a překladové texty jsou nejprve na základě statistických výpočtů zarovnány po slovech pomocí programu GIZA++((viz [[http://dx.doi.org/10.1162/089120103321337421|Och–Ney 2003]])). Zarovnané dvojice slov jsou pak setříděny a sumarizovány. Výsledek automatické excerpce není nijak revidován, jako ukazatel relevance překladového ekvivalentu však že posloužit relativní frekvence příslušné dvojice slov. Čím častěji se ekvivalent zadaného slova vyskytl ve srovnání s ostatními ekvivalentytím tší je pravděpodobnost, žje funkč.+Následuje automatické zarovnání po slovech v rámci těchto vět pomocí programu GIZA++((viz [[http://dx.doi.org/10.1162/089120103321337421|Och–Ney 2003]])). Ve starších verzích Trequ se využívalo zarovnání pomocí metody //intersection//, které páruje jedno slovo s jedním ekvivalentem, např.:  
 +  
 +OBR. 1 
 + 
 +OBR. 2 
 + 
 +Tzn. že v první větě první slovo ve zdrojovém jazyku (0) odpovídá prvnímu slovu v jazyku cílovém (0), druhé slovo (1) odpovídá třetímu slovu (2) atd. Počínaje verzí 2.0 byla navíc využita metoda //grow-diag-final-and//, která umožňuje vytvářet i komplikovanější zarovnání více slov na obou stranách překladu.  Takové zarovnání pak může vypadat třeba takto: 
 + 
 +OBR. 3 
 + 
 +OBR. 4 
 + 
 +Oproti případu výše tu druhé slovo ve zdrojovém jazyku (1) neodpovídá pouze třetímu (2), ale též druhému a čtvrtému (1, 3) slovu v jazyku cílovém atd. 
 +Z takovéhoto zarovnání je následně vybráno co největší množství kombinací slov, které toto zarovnání umožňuje (viz též příklad extrahovaných ekvivalentů níže).  
 +V obou případech jsou zarovnané dvojice slov setříděny a sečteny, výsledky automatické extrakce však už nejsou nijak revidovány a uživateli jsou poskytnuty formou seznamu nalezených ekvivalentů zadaného výrazu, doplněných o absolutní a relativní frekvenci. 
 +V jakém poměru jsou frekvence nalezené v KonTextu s těmi zobrazovanými Treqem, ukazuje iložená tabulka. Ta vyčísluje různé typy dat v jednotlivých fázích jejich zpracování pro Treq z anglické složky IC v9 (víceslovná varianta). 
 + 
 +OBR. 5 TAB 
 + 
 +Po dílčích krocích lze sledovat postupný úbytek dat, která jsou ve výsledném slovníku použita. V prvním kroku použijeme pouze zarovnání vět 1:1 – tím přijdeme o 20,7 % vět.  Následně se vyberou na základě zarovnání z programu GIZA++ víceslovné ekvivalenty. Vztah mezi velikostí původního korpusu a počtem vyextrahovaných ekvivalentů však nelze jasně předvídat, zvláště pak u víceslovných ekvivalentů, kde vznikají nejrůznější kombinace stejných slov (viz tučně vysázené dvojice níže)Takto by např. vypadal abecedně řazený soupis česko-anglických párů extrahovaných z druhé příkladové věty: 
 + 
 +//a – and// 
 + 
 +//chybný – bad// 
 + 
 +//krok – move// 
 + 
 +//lidí – people// 
 + 
 +//naštvalo – angry// 
 + 
 +//**považovalo – been widely regarded as**// 
 + 
 +//**považovalo za – been widely regarded as**// 
 + 
 +//**považovalo za – regarded a**// 
 + 
 +//se – made// 
 + 
 +//Spoustu – lot of// 
 + 
 +//to – This// 
 + 
 +//to – very// 
 + 
 +//**za – regarded a**// 
 + 
 +//. – .// 
 + 
 +Ve třetím kroku se v rámci celého textu sečtou řádky, které jsou stejné na obou stranách zarovnání. Tak získáme seznam a frekvenci ekvivalentů. Nakonec, v závěrečném kroku, vyřadíme všechny protějšky obsahující interpunkcičímž obdržíme finální verzi slovníku. U všech jazykových párů, kde je k dispozici lemmatizace na obou stranách zarovnání, aplikujeme stejný postup i na lemmatizovanou podobu dat (//na počátek být stvořit vesmír . – in the beginning the universe be create .//).
  
 ===== Obrázky aplikace ===== ===== Obrázky aplikace =====