Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:hledani_v_paralelnim_korpusu [2017/08/23 14:42] – jankocek
+++ kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:49] – [Srovnávací výzkum na korpusu Jerome] michalskrabal
@@ Řádek 1: / Řádek 1: @@
 ====== Specifika vyhledávání v paralelním korpusu ======
-Jak ukazuje [[cnk:struktura|seznam dostupných korpusů ČNK]], vedle jednojazyčných korpusů umožňuje rozhraní [[manualy:kontext:index|KonText]] přístup i ke korpusům [[pojmy:paralelni|paralelním]], v našem případě především ke korpusu [[cnk:intercorp|InterCorp]]. Zmíníme se rovněž o [[pojmy:srovnatelny|srovnatelných]] korpusech, konkrétně o korpusu [[cnk:jerome|Jerome]].
+Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v10 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
-===== Paralelní korpusy v rozhraní KonText =====
-Jak začít s hledáním v paralelním korpusu? Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek **InterCorp** a pak první jazyk, např. **InterCorp v10 – Czech** (případně jinou jeho [[cnk:intercorp|verzi]], doporučujeme nicméně pracovat vždy s tou nejnovější).
 Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
@@ Řádek 12: / Řádek 7: @@
 První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný.
-[{{ic_vyber.png?300|Výběr korpusu}}]
+[{{ic_vyber.png?300|Výběr korpusu FIXME}}]
-[{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda//}}]
+[{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda// FIXME}}]
 <WRAP clear/>
@@ Řádek 19: / Řádek 14: @@
 Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])).
-[{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině}}]
+[{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině FIXME}}]
 <WRAP clear/>
-Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde hledané slovo v prvním jazyce odpovídá hledanému lexému v jazyce druhém. Zaškrtneme-li volbu **zobrazit i prázdné řádky**, bude seznam obsahovat i řádky, kde v druhém jazyce nebyla věta přeložena. Výsledná konkordance by měla vypadat takto:
+Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:
-[{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth//}}]
+[{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth// FIXME}}]
 <WRAP clear/>
@@ Řádek 34: / Řádek 29: @@
 Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**.
-<WRAP round important 50%>
-Funkce NEobsahuje je v důsledku technických problémů dočasně neaktivní. Na jejím opětovném spuštění pracujeme.
-</WRAP>
-[{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth//}}]
+[{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}]
-[{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth//}}]
+[{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}]
 <WRAP clear/>
@@ Řádek 61: / Řádek 52: @@
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
-===== Srovnávací výzkum na korpusu InterCorp verze 7 =====
+===== Srovnávací výzkum na korpusu InterCorp verze 10 =====
-Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlviu překladovosti v rámci jednoho jazyka.
+Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.
 <WRAP round help 70%>
@@ Řádek 77: / Řádek 68: @@
   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))
-  - Celý postup si ukážeme na InterCorpu ve verzi 7.
+  - Celý postup si ukážeme na InterCorpu ve verzi 10.
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').
-==== Výsledky pro InterCorp v7 a BNC ====
+==== Výsledky pro InterCorp v10 a BNC ====
-^ lemma ^ tag ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^
+^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^
-| //his// | dps, pnp, unc | BNC |  409 825 |  3684 |
+| ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 |
-| //his// | %%pp$%% | InterCorp v7 |  248 816 |  1850 |
+| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 |
-| //his// | %%pp$%% | InterCorp v7 (''div.srclang=en'') |  156 621 |  2435 |
+| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%''  | InterCorp v10 (''div.srclang=en'') |  253 046 |  3304 |
 <WRAP round important 60%>
@@ Řádek 91: / Řádek 82: @@
 </WRAP>
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Typy textů → div.srclang**):
+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):
 ^ zdrojový jazyk ^   i.p.m. ^
-| angličtina | 2435 |
+| angličtina | 3304 |
-| čeština  | 4724 |
+| čeština  | 5257 |
-| ruština | 7627  |
+| ruština | 7584  |
-| francouzština | 1500  |
+| francouzština | 2059  |
-| němčina | 1440  |
+| němčina | 1457  |
-| švédština | 3046  |
+| švédština | 3013  |
-Celkově se tedy zdá, že zájmeno //his// je v textech obsahujících i překlady distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.
+Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.
 ===== Srovnávací výzkum na korpusu Jerome =====
-Můžeme podobné srovnání provést třeba pro překladovou češtinu a pokusit se zjistit, jestli je např. frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální text? Této otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.
+Podobné srovnání můžeme provést i pro překladovou češtinu: pokusme se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální text. Této otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.
 <WRAP round help 70%>
@@ Řádek 112: / Řádek 103: @@
 </WRAP>
-Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:
+Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí v kolonce ''opus.status'', že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:
 ^ zdrojový jazyk ^ čeština ^ angličtina  ^ němčina ^ francouzština ^
@@ Řádek 132: / Řádek 123: @@
 | publicistika |  8360 |
-Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky.
+Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky.
 ===== Další možné využití korpusu InterCorp: falešní přátelé =====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence