Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- manualy:treq [2017/04/06 15:02] – [Princip zarovnání] michalskrabal
+++ manualy:treq [2017/09/25 15:43] – michalskrabal
@@ Řádek 14: / Řádek 14: @@
 Následuje automatické zarovnání po slovech v rámci těchto vět pomocí programu GIZA++((viz [[http://dx.doi.org/10.1162/089120103321337421|Och–Ney 2003]])). Ve starších verzích Trequ se využívalo zarovnání pomocí metody //intersection//, které páruje jedno slovo s jedním ekvivalentem, např.:
-OBR. 1
+{{:manualy:carky_int.jpg?300|}}
-OBR. 2
+{{:manualy:carky_int_spoustu_lidi_to_nastvalo.jpg?450|}}
 Tzn. že v první větě první slovo ve zdrojovém jazyku (0) odpovídá prvnímu slovu v jazyku cílovém (0), druhé slovo (1) odpovídá třetímu slovu (2) atd. Počínaje verzí 2.0 byla navíc využita metoda //grow-diag-final-and//, která umožňuje vytvářet i komplikovanější zarovnání více slov na obou stranách překladu.  Takové zarovnání pak může vypadat třeba takto:
-OBR. 3
+{{:manualy:carky_gdfa.jpg?300|}}
-OBR. 4
+{{:manualy:carky_gdfa_spoustu_lidi_to_nastvalo.jpg?450|}}
 Oproti případu výše tu druhé slovo ve zdrojovém jazyku (1) neodpovídá pouze třetímu (2), ale též druhému a čtvrtému (1, 3) slovu v jazyku cílovém atd.
 Z takovéhoto zarovnání je následně vybráno co největší množství kombinací slov, které toto zarovnání umožňuje (viz též příklad extrahovaných ekvivalentů níže).
-V obou případech jsou zarovnané dvojice slov setříděny a sečteny, výsledky automatické extrakce však už nejsou nijak revidovány a uživateli jsou poskytnuty formou seznamu nalezených ekvivalentů zadaného výrazu, doplněných o absolutní a relativní frekvenci.
+V obou případech jsou zarovnané dvojice slov setříděny a sečteny, výsledky automatické extrakce však už nejsou nijak revidovány a uživateli jsou poskytnuty formou seznamu nalezených ekvivalentů zadaného výrazu, doplněných o absolutní a relativní frekvenci. Tyto údaje jsou uživatelovým primárním vodítkem: čím častěji se ekvivalent hledaného výrazu vyskytl ve srovnání s ostatními ekvivalenty, tím vyšší je pravděpodobnost, že je funkční.
 V jakém poměru jsou frekvence nalezené v KonTextu s těmi zobrazovanými Treqem, ukazuje přiložená tabulka. Ta vyčísluje různé typy dat v jednotlivých fázích jejich zpracování pro Treq z anglické složky IC v9 (víceslovná varianta).
-OBR. 5 TAB
+{{:manualy:treq-tabulka.jpg|}}
-Po dílčích krocích lze sledovat postupný úbytek dat, která jsou ve výsledném slovníku použita. V prvním kroku použijeme pouze zarovnání vět 1:1 – tím přijdeme o 20,7 % vět.  Následně se vyberou na základě zarovnání z programu GIZA++ víceslovné ekvivalenty. Vztah mezi velikostí původního korpusu a počtem vyextrahovaných ekvivalentů však nelze jasně předvídat, zvláště pak u víceslovných ekvivalentů, kde vznikají nejrůznější kombinace stejných slov (viz tučně vysázené dvojice níže). Takto by např. vypadal abecedně řazený soupis česko-anglických párů extrahovaných z druhé příkladové věty:
+Po dílčích krocích lze sledovat postupný úbytek dat, která jsou ve výsledném slovníku použita. V prvním kroku použijeme pouze zarovnání vět 1:1 – tím přijdeme o 20,7 % vět.  Následně se vyberou na základě zarovnání z programu GIZA++ jedno- a víceslovné ekvivalenty. Vztah mezi velikostí původního korpusu a počtem vyextrahovaných ekvivalentů však nelze jasně předvídat, zvláště pak u víceslovných ekvivalentů, kde vznikají nejrůznější kombinace stejných slov (viz tučně vysázené dvojice níže). Takto by např. vypadal abecedně řazený soupis česko-anglických párů extrahovaných z druhé příkladové věty:
 //a – and//
@@ Řádek 65: / Řádek 66: @@
 ===== Obrázky aplikace =====
-[{{:manualy:treq-form.png?direct&300|Zadávací formulář}}]
+[{{:manualy:home.png?direct&300|Zadávací formulář}}]
-[{{:manualy:treq-skorapka.png?direct&300|Hledání v česko-anglické části}}]
+[{{:manualy:basic.png?direct&300|Jednoduché hledání v německo-české části}}]
-[{{:manualy:treq-warum.png?direct&300|Hledání v česko-německé části}}]
+[{{:manualy:regex.png?direct&300|Pokročilé hledání (pomocí regulárních výrazů) v anglicko-české části}}]
+===== Jak citovat Treq =====
+<WRAP round tip 80%>
+Vavřín, M. – Rosen, A.: Treq. FF UK. Praha 2015. Dostupný z WWW: <http://treq.korpus.cz>.
+Škrabal, M. – Vavřín, M. (2017): Databáze překladových ekvivalentů Treq. //Časopis pro moderní filologii// 99 (2), 245–260.
+</WRAP>
 ==== Související odkazy ====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence