Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_paralelnim_korpusu [2018/04/13 10:58]
Dominika Kováříková [Paralelní korpusy v rozhraní KonText]
kurz:hledani_v_paralelnim_korpusu [2018/12/17 15:41] (aktuální)
Jan Kocek
Řádek 1: Řádek 1:
 ====== Specifika vyhledávání v paralelním korpusu ====== ====== Specifika vyhledávání v paralelním korpusu ======
  
-Jak ukazuje [[cnk:​struktura|seznam dostupných korpusů ČNK]], vedle jednojazyčných korpusů umožňuje rozhraní [[manualy:​kontext:​index|KonText]] přístup i ke korpusům [[pojmy:​paralelni|paralelním]],​ v našem případě především ke korpusu [[cnk:​intercorp|InterCorp]]. Zmíníme se rovněž o [[pojmy:​srovnatelny|srovnatelných]] korpusech, konkrétně o korpusu [[cnk:​jerome|Jerome]]. +Z výchozího rozcestníku,​ který obsahuje seznam všech dostupných korpusů, vybereme štítek ​[[cnk:​intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v10 Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
- +
- +
-===== Paralelní korpusy v rozhraní KonText ===== +
- +
-Jak začít s hledáním v paralelním korpusu? ​Z výchozího rozcestníku,​ který obsahuje seznam všech dostupných korpusů, vybereme štítek ​**InterCorp** a pak první jazyk, např. **InterCorp v10 – Czech** (případně jinou jeho [[cnk:​intercorp|verzi]], doporučujeme nicméně pracovat vždy s tou nejnovější).+
  
 Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat. Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
Řádek 12: Řádek 7:
 První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:​prvni_dotaz#​nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný. První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:​prvni_dotaz#​nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný.
  
-[{{ic_vyber.png?​300|Výběr korpusu}}] +[{{ic_vyber.png?​direct&300|Výběr korpusu }}] 
-[{{lemma_pravda.png?​300|Zadání dotazu na lemma //​pravda//​}}]+[{{lemma_pravda.png?​direct&300|Zadání dotazu na lemma //pravda// }}]
  
 <WRAP clear/> <WRAP clear/>
  
-Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:​treq|Treq]])).+Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:​treq|Treq]] ​-- 5 nejčastějších ekvivalentů z této databáze se objeví v Kontextu nalevo od paralelních konkordancí.((Funguje pouze pro InterCorp ve verzi 10 a 11.)) Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''​E''​.
  
-[{{konkordance_lemma_pravda.png?​600|Vyhodnocení dotazu na lemma //pravda// v češtině}}]+[{{konkordance_lemma_pravda.png?​direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]
  
 <WRAP clear/> <WRAP clear/>
  
  
-Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde hledané slovo prvním jazyce odpovídá hledanému lexému v jazyce druhém. Zaškrtneme-li volbu **zobrazit i prázdné řádky**, bude seznam obsahovat i řádky, kde v druhém jazyce nebyla věta přeložena. Výsledná konkordance by měla vypadat takto:+Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv ​ak nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:
  
-[{{konkordance_pravda_truth.png?​600|Konkordance českého lemmatu //pravda// a anglického //​truth//​}}]+[{{konkordance_pravda_truth.png?​direct&600|Konkordance českého lemmatu //pravda// a anglického //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 36: Řádek 31:
  
  
-[{{neobsahuje_lemma_truth_true.png?​300|Dotaz na lemma //pravda//, který neobsahuje lemmata ​ //true// či //​truth//​}}] +[{{neobsahuje_lemma_truth_true.png?​direct&300|Dotaz na lemma //pravda//, který neobsahuje lemmata ​ //true// či //truth// }}] 
-[{{vysledek_neobsahuje.png?​480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata ​ //true// či //​truth//​}}]+[{{vysledek_neobsahuje.png?​direct&480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata ​ //true// či //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 46: Řádek 41:
  
 Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte. Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte.
 +
 ===== Specifika korpusů řady InterCorp ===== ===== Specifika korpusů řady InterCorp =====
  
Řádek 57: Řádek 53:
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:​syn|SYN]] i [[pojmy:​atributy_strukturni#​strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:​kontext:​moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:​syn|SYN]] i [[pojmy:​atributy_strukturni#​strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:​kontext:​moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
  
-===== Srovnávací výzkum na korpusu InterCorp verze =====+===== Srovnávací výzkum na korpusu InterCorp verze 10 =====
  
-Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání ​vlviu překladovosti v rámci jednoho jazyka.+Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání ​vlivu překladovosti v rámci jednoho jazyka.
  
 <WRAP round help 70%> <WRAP round help 70%>
Řádek 73: Řádek 69:
  
   - Nejprve je dobré zjistit [[pojmy:​tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:​intercorp:​verze9#​morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://​www.ling.upenn.edu/​courses/​Fall_2003/​ling001/​penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:​lemma|lemma]] //his// a podívat se do výsledků **[[manualy:​kontext:​frekvencni_distribuce|Frekvence → Vlastní]]**,​ kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://​kontext.korpus.cz/​view?​q=~euhddSSs&​attr_allpos=kw&​attrs=word&​corpname=bnc&​ctxattrs=word&​pagesize=40&​refs=%3Dbncdoc.id&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))   - Nejprve je dobré zjistit [[pojmy:​tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:​intercorp:​verze9#​morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://​www.ling.upenn.edu/​courses/​Fall_2003/​ling001/​penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:​lemma|lemma]] //his// a podívat se do výsledků **[[manualy:​kontext:​frekvencni_distribuce|Frekvence → Vlastní]]**,​ kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://​kontext.korpus.cz/​view?​q=~euhddSSs&​attr_allpos=kw&​attrs=word&​corpname=bnc&​ctxattrs=word&​pagesize=40&​refs=%3Dbncdoc.id&​structs=p%2Cg%2Cerr%2Ccorr&​viewmode=kwic&​|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))
-  - Celý postup si ukážeme na InterCorpu ve verzi 7.+  - Celý postup si ukážeme na InterCorpu ve verzi 10.
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''​div.srclang=en''​).   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''​div.srclang=en''​).
  
-==== Výsledky pro InterCorp ​v7 a BNC ====+==== Výsledky pro InterCorp ​v10 a BNC ====
  
-lemma ^ tag ^ korpus ^  abs. frekvence ^  [[pojmy:​ipm|rel. frekvence (i.p.m.)]] ^ +dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:​ipm|rel. frekvence (i.p.m.)]] ^ 
-//his// dps, pnp, unc | BNC |  409 825 |  3684 | +''​[lemma=%%"​%%his%%"%% & tag=%%"​%%DPS|PNP|UNC%%"​%%]'' ​| BNC |  409 825 |  3684 | 
-//his// | %%pp$%% | InterCorp ​v7 |  ​248 816 |  ​1850 +''​[tag=%%"​%%PP\$%%"%% & lemma=%%"​%%his%%"​%%]'' ​| InterCorp ​v10 |  ​365 903 |  ​2431 
-//his// | %%pp$%% | InterCorp ​v7 (''​div.srclang=en''​) |  ​156 621 |  ​2435 |+''​[tag=%%"PP\$" & lemma="​his"​%%] within %%<div srclang="​en"​ />​%%''  ​| InterCorp ​v10 (''​div.srclang=en''​) |  ​253 046 |  ​3304 |
  
 <WRAP round important 60%> <WRAP round important 60%>
Řádek 87: Řádek 83:
 </​WRAP>​ </​WRAP>​
  
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Typy textů → div.srclang**):​+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):​
 ^ zdrojový jazyk ^   ​i.p.m. ^ ^ zdrojový jazyk ^   ​i.p.m. ^
-| angličtina | 2435 |  +| angličtina | 3304 |  
-| čeština ​ | 4724 +| čeština ​ | 5257 
-| ruština | 7627  | +| ruština | 7584  | 
-| francouzština | 1500  | +| francouzština | 2059  | 
-| němčina | 1440  | +| němčina | 1457  | 
-| švédština | 3046  |+| švédština | 3013  |
  
-Celkově se tedy zdá, že zájmeno //his// je v textech ​obsahujících i překlady ​distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. ​+Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. ​
  
 ===== Srovnávací výzkum na korpusu Jerome ===== ===== Srovnávací výzkum na korpusu Jerome =====
-Můžeme ​podobné srovnání ​provést ​třeba ​pro překladovou češtinu ​a pokusit ​se zjistit, jestli je např. ​frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový,​ nebo originální textTéto otázce je šitý na míru korpus [[cnk:​jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.+Podobné srovnání můžeme provést ​pro překladovou češtinu: pokusme ​se zjistit, jestli je frekvence přivlastňovacích zájmen ovlivněná tím, zda se jedná o překladový,​ nebo originální textTéto otázce je šitý na míru korpus [[cnk:​jerome|Jerome]]. Výchozí úvaha se opírá o otázku, zda se překladatel nechává svést konstrukcemi typu //he put on **his** coat// a namísto //oblékl si kabát// použije //oblékl si **svůj** kabát//, nebo zda vliv zdrojového jazyka není patrný.
  
 <WRAP round help 70%> <WRAP round help 70%>
Řádek 108: Řádek 104:
 </​WRAP>​ </​WRAP>​
  
-Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena ​se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové,​ původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance,​ zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina,​ němčina i francouzština všechny využívají zájmena (přivlastňovací,​ ale i jiná) častěji než čeština:+Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí ​v kolonce ''​opus.status''​, že se přivlastňovací zájmena v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové,​ původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance,​ zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina,​ němčina i francouzština všechny využívají zájmena (přivlastňovací,​ ale i jiná) častěji než čeština:
  
 ^ zdrojový jazyk ^ čeština ^ angličtina ​ ^ němčina ^ francouzština ^  ^ zdrojový jazyk ^ čeština ^ angličtina ​ ^ němčina ^ francouzština ^ 
Řádek 128: Řádek 124:
 | publicistika |  8360 |  | publicistika |  8360 | 
  
-Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. ​+Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. ​
  
 ===== Další možné využití korpusu InterCorp: falešní přátelé ===== ===== Další možné využití korpusu InterCorp: falešní přátelé =====
Řádek 134: Řádek 130:
 Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. ​ Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. ​
  
-[{{vyberinterc_macher.png?​700|Konkordance se slovem //​Macher//​}}]+[{{vyberinterc_macher.png?​direct&700|Konkordance se slovem //​Macher//​}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 140: Řádek 136:
  
 <WRAP round help 50%> <WRAP round help 50%>
-  * Vyhledejte si v německé složce InterCorpu verze lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''​[word=%%"​.*ksicht.*"​%%]''​ (nedbejte na zdrojový jazyk).+  * Vyhledejte si v německé složce InterCorpu verze 10 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''​[word=%%"​.*ksicht.*"​%%]''​ (nedbejte na zdrojový jazyk).
   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.
 </​WRAP>​ </​WRAP>​
  
-Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp ​v6 dává [[https://​kontext.korpus.cz/​view?​q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&​viewmode=align&​pcq_pos_neg_intercorp_cs=pos|přes ​třicet ​dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //​ksichtu//,​ kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:​+Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp ​v10 dává [[https://​kontext.korpus.cz/​view?​ctxattrs=word&pcq_pos_neg_intercorp_v10_de=pos&attr_vmode=visible&pagesize=40&align=intercorp_v10_de&q=~3EjE9A5VyG&viewmode=align&attrs=word&​corpname=intercorp_v10_cs&refs=%3Ddoc.id&attr_allpos=kw&maincorp=intercorp_v10_cs|přes ​170 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //​ksichtu//,​ kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:​
  
-[{{vyberinterc_ksicht_a_ekvivalenty.png?​700|Konkordance se slovem //​ksicht//​}}]+[{{vyberinterc_ksicht_a_ekvivalenty.png?​direct&700|Konkordance se slovem //​ksicht// ​- verze 10}}]
  
 <WRAP clear/> <WRAP clear/>
  
  
-Vidíme, že v náhodném vzorku jedenácti dokladů (z celkových 65) je //Gesicht// ekvivalentem //ksichtu// pouze čtyřikrát. Z analýzy konkordancí je zřejmé, k jak výraznému významovému posunu směrem k pragmaticky zatíženému,​ expresivnímu výrazu při převzetí slova do češtiny došlo. ​ 
  
 ---- ----