AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_v_paralelnim_korpusu [2017/04/21 09:10] – [Specifika korpusů řady InterCorp] michalskrabalkurz:hledani_v_paralelnim_korpusu [2018/08/08 14:54] – [Další možné využití korpusu InterCorp: falešní přátelé] michalskrabal
Řádek 1: Řádek 1:
 ====== Specifika vyhledávání v paralelním korpusu ====== ====== Specifika vyhledávání v paralelním korpusu ======
  
-Jak ukazuje [[cnk:struktura|seznam dostupných korpusů ČNK]]vedle jednojazyčných korpusů umožňuje rozhraní [[manualy:kontext:index|KonText]] přístup i ke korpusům [[pojmy:paralelni|paralelním]], v našem případě především ke korpusu [[cnk:intercorp|InterCorp]]. Zmíníme se rovněž o [[pojmy:srovnatelny|srovnatelných]] korpusechkonkrétně o korpusu [[cnk:jerome|Jerome]].+Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např**InterCorp v10 - Czech** (případně jinou jeho verzidoporučujeme nicméně pracovat vždy s tou nejnovější).
  
- +Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
-===== Paralelní korpusy v rozhraní KonText ===== +
- +
-Jak začít s hledáním v paralelním korpusu? Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek **InterCorp** a pak první jazyk, např. **InterCorp v9 – Czech** (případně jinou jeho [[cnk:intercorp|verzi]], doporučujeme nicméně pracovat vždy s tou nejnovější). +
- +
-Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v9 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.+
  
 První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný. První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný.
  
-[{{ic_vyber.png?300|Výběr korpusu}}] +[{{ic_vyber.png?300|Výběr korpusu FIXME}}] 
-[{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda//}}]+[{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda// FIXME}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 19: Řádek 14:
 Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])). Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])).
  
-[{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině}}]+[{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině FIXME}}]
  
 <WRAP clear/> <WRAP clear/>
  
  
-Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde hledané slovo prvním jazyce odpovídá hledanému lexému v jazyce druhém. Zaškrtneme-li volbu **zobrazit i prázdné řádky**, bude seznam obsahovat i řádky, kde v druhém jazyce nebyla věta přeložena. Výsledná konkordance by měla vypadat takto:+Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv ak nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:
  
-[{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth//}}]+[{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth// FIXME}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 34: Řádek 29:
  
 Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**. Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**.
- 
-<WRAP round important 50%> 
-Funkce NEobsahuje je v důsledku technických problémů dočasně neaktivní. Na jejím opětovném spuštění pracujeme. 
-</WRAP> 
  
  
-[{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth//}}] +[{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}] 
-[{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth//}}]+[{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 61: Řádek 52:
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
  
-===== Srovnávací výzkum na korpusu InterCorp verze =====+===== Srovnávací výzkum na korpusu InterCorp verze 10 =====
  
-Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlviu překladovosti v rámci jednoho jazyka.+Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.
  
 <WRAP round help 70%> <WRAP round help 70%>
Řádek 77: Řádek 68:
  
   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))
-  - Celý postup si ukážeme na InterCorpu ve verzi 7.+  - Celý postup si ukážeme na InterCorpu ve verzi 10.
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').
  
-==== Výsledky pro InterCorp v7 a BNC ====+==== Výsledky pro InterCorp v10 a BNC ====
  
-lemma ^ tag ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ +dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ 
-//his// dps, pnp, unc | BNC |  409 825 |  3684 | +''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 | 
-//his// | %%pp$%% | InterCorp v7 |  248 816 |  1850 +''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 
-//his// | %%pp$%% | InterCorp v7 (''div.srclang=en'') |  156 621 |  2435 |+''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%''  | InterCorp v10 (''div.srclang=en'') |  253 046 |  3304 |
  
 <WRAP round important 60%> <WRAP round important 60%>
Řádek 91: Řádek 82:
 </WRAP> </WRAP>
  
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Typy textů → div.srclang**):+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):
 ^ zdrojový jazyk ^   i.p.m. ^ ^ zdrojový jazyk ^   i.p.m. ^
-| angličtina | 2435 |  +| angličtina | 3304 |  
-| čeština 4724 +| čeština 5257 
-| ruština | 7627  | +| ruština | 7584  | 
-| francouzština | 1500  | +| francouzština | 2059  | 
-| němčina | 1440  | +| němčina | 1457  | 
-| švédština | 3046  |+| švédština | 3013  |
  
-Celkově se tedy zdá, že zájmeno //his// je v textech obsahujících i překlady distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. +Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. 
  
 ===== Srovnávací výzkum na korpusu Jerome ===== ===== Srovnávací výzkum na korpusu Jerome =====
-Můžeme podobné srovnání provést třeba pro překladovou češtinu a pokusit se zjistit, jestli je např. frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální textTéto otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.+Podobné srovnání můžeme provést pro překladovou češtinu: pokusme se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový, nebo originální textTéto otázce je šitý na míru korpus [[cnk:jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.
  
 <WRAP round help 70%> <WRAP round help 70%>
Řádek 112: Řádek 103:
 </WRAP> </WRAP>
  
-Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:+Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí v kolonce ''opus.status'', že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština:
  
 ^ zdrojový jazyk ^ čeština ^ angličtina  ^ němčina ^ francouzština ^  ^ zdrojový jazyk ^ čeština ^ angličtina  ^ němčina ^ francouzština ^ 
Řádek 132: Řádek 123:
 | publicistika |  8360 |  | publicistika |  8360 | 
  
-Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. +Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. 
  
 ===== Další možné využití korpusu InterCorp: falešní přátelé ===== ===== Další možné využití korpusu InterCorp: falešní přátelé =====
Řádek 138: Řádek 129:
 Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce.  Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. 
  
-[{{vyberinterc_macher.png?700|Konkordance se slovem //Macher//}}]+[{{vyberinterc_macher.png?direct&700|Konkordance se slovem //Macher//}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 150: Řádek 141:
 Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:
  
-[{{vyberinterc_ksicht_a_ekvivalenty.png?700|Konkordance se slovem //ksicht//}}]+[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht// FIXME}}]
  
 <WRAP clear/> <WRAP clear/>