Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
manualy:treq [2017/04/06 14:42] – [Treq] Michal Škrabal | manualy:treq [2017/05/22 15:04] – Michal Škrabal | ||
---|---|---|---|
Řádek 10: | Řádek 10: | ||
===== Princip zarovnání ===== | ===== Princip zarovnání ===== | ||
+ | Při přípravě dat pro databázi Treq jsou nejprve z celého korpusu dané jazykové verze InterCorpu vybrány pouze věty, které jsou k češtině zarovnány v poměru 1:1. Výhradně jednoduchá zarovnání používáme proto, že obvykle bývají spolehlivější; | ||
- | Originální a překladové texty jsou nejprve na základě statistických výpočtů zarovnány po slovech | + | Následuje automatické zarovnání po slovech v rámci těchto vět pomocí programu GIZA++((viz [[http:// |
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Tzn. že v první větě první slovo ve zdrojovém jazyku (0) odpovídá prvnímu slovu v jazyku cílovém (0), druhé slovo (1) odpovídá třetímu slovu (2) atd. Počínaje verzí 2.0 byla navíc využita metoda // | ||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Oproti | ||
+ | Z takovéhoto zarovnání je následně vybráno co největší množství kombinací slov, které toto zarovnání umožňuje (viz též příklad extrahovaných ekvivalentů níže). | ||
+ | V obou případech jsou zarovnané | ||
+ | |||
+ | V jakém poměru jsou frekvence nalezené v KonTextu s těmi zobrazovanými Treqem, ukazuje přiložená tabulka. Ta vyčísluje různé typy dat v jednotlivých fázích jejich zpracování pro Treq z anglické složky IC v9 (víceslovná varianta). | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Po dílčích krocích lze sledovat postupný úbytek dat, která jsou ve výsledném slovníku použita. V prvním kroku použijeme pouze zarovnání vět 1:1 – tím přijdeme o 20,7 % vět. Následně se vyberou na základě zarovnání z programu GIZA++ jedno- a víceslovné ekvivalenty. Vztah mezi velikostí původního korpusu a počtem vyextrahovaných ekvivalentů však nelze jasně předvídat, | ||
+ | |||
+ | //a – and// | ||
+ | |||
+ | //chybný – bad// | ||
+ | |||
+ | //krok – move// | ||
+ | |||
+ | //lidí – people// | ||
+ | |||
+ | //naštvalo – angry// | ||
+ | |||
+ | // | ||
+ | |||
+ | // | ||
+ | |||
+ | // | ||
+ | |||
+ | //se – made// | ||
+ | |||
+ | //Spoustu – lot of// | ||
+ | |||
+ | //to – This// | ||
+ | |||
+ | //to – very// | ||
+ | |||
+ | //**za – regarded a**// | ||
+ | |||
+ | //. – .// | ||
+ | |||
+ | Ve třetím kroku se v rámci celého textu sečtou řádky, které jsou stejné na obou stranách zarovnání. Tak získáme seznam a frekvenci ekvivalentů. Nakonec, v závěrečném kroku, vyřadíme všechny protějšky obsahující interpunkci, | ||
===== Obrázky aplikace ===== | ===== Obrázky aplikace ===== | ||
- | [{{: | + | [{{: |
- | [{{: | + | [{{: |
- | [{{: | + | [{{: |
==== Související odkazy ==== | ==== Související odkazy ==== |