Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_v_paralelnim_korpusu [2016/12/01 14:06] – [Výsledky pro InterCorp v7 a BNC] michalskrabal | kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:40] – [Výsledky pro InterCorp v10 a BNC] vaclavcvrcek |
---|
====== Specifika vyhledávání v paralelním korpusu ====== | ====== Specifika vyhledávání v paralelním korpusu ====== |
| |
Jak ukazuje [[cnk:struktura|seznam dostupných korpusů ČNK]], vedle jednojazyčných korpusů umožňuje rozhraní [[manualy:kontext:index|KonText]] přístup i ke korpusům [[pojmy:paralelni|paralelním]], v našem případě především ke korpusu [[cnk:intercorp|InterCorp]]. Zmíníme se rovněž o [[pojmy:srovnatelny|srovnatelných]] korpusech, konkrétně o korpusu [[cnk:jerome|Jerome]]. | Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v10 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější). |
| |
| Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat. |
===== Paralelní korpusy v rozhraní KonText ===== | |
| |
Jak začít s hledáním v paralelním korpusu? Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek **InterCorp** a pak první jazyk, např. **InterCorp v9 – Czech** (případně jinou jeho [[cnk:intercorp|verzi]], doporučujeme nicméně pracovat vždy s tou nejnovější). | |
| |
Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v9 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat. | |
| |
První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný. | První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný. |
| |
[{{ic_vyber.png?300|Výběr korpusu}}] | [{{ic_vyber.png?300|Výběr korpusu FIXME}}] |
[{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda//}}] | [{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda// FIXME}}] |
| |
<WRAP clear/> | <WRAP clear/> |
Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])). | Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])). |
| |
[{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině}}] | [{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině FIXME}}] |
| |
<WRAP clear/> | <WRAP clear/> |
| |
| |
Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde hledané slovo v prvním jazyce odpovídá hledanému lexému v jazyce druhém. Zaškrtneme-li volbu **zobrazit i prázdné řádky**, bude seznam obsahovat i řádky, kde v druhém jazyce nebyla věta přeložena. Výsledná konkordance by měla vypadat takto: | Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto: |
| |
[{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth//}}] | [{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth// FIXME}}] |
| |
<WRAP clear/> | <WRAP clear/> |
| |
Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**. | Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**. |
| |
<WRAP round important 50%> | |
Funkce NEobsahuje je v důsledku technických problémů dočasně neaktivní. Na jejím opětovném spuštění pracujeme. | |
</WRAP> | |
| |
| |
[{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata //true// či //truth//}}] | [{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata //true// či //truth// FIXME}}] |
[{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata //true// či //truth//}}] | [{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata //true// či //truth// FIXME}}] |
| |
<WRAP clear/> | <WRAP clear/> |
* Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk. | * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk. |
* U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. | * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. |
* Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení → Atributy, struktury a metainformace]]**.) | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení → Korpusová nastavení]]**.) |
| |
===== Srovnávací výzkum na korpusu InterCorp verze 7 ===== | ===== Srovnávací výzkum na korpusu InterCorp verze 10 ===== |
| |
Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlviu překladovosti v rámci jednoho jazyka. | Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. |
| |
<WRAP round help 70%> | <WRAP round help 70%> |
| |
- Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) | - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) |
- Celý postup si ukážeme na InterCorpu ve verzi 7. | - Celý postup si ukážeme na InterCorpu ve verzi 10. |
- Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). | - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). |
| |
==== Výsledky pro InterCorp v7 a BNC ==== | ==== Výsledky pro InterCorp v10 a BNC ==== |
| |
^ lemma ^ tag ^ korpus ^ abs. frekvence ^ [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ | ^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ |
| //his// | dps, pnp, unc | BNC | 409 825 | 3684 | | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC | 409 825 | 3684 | |
| //his// | %%pp$%% | InterCorp v7 | 248 816 | 1850 | | | ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 | 365 903 | 2431 | |
| //his// | %%pp$%% | InterCorp v7 (''div.srclang=en'') | 156 621 | 2435 | | | ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%'' | InterCorp v10 (''div.srclang=en'') | 253 046 | 3304 | |
| |
<WRAP round important 60%> | <WRAP round important 60%> |
</WRAP> | </WRAP> |
| |
Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textu** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština: | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, původní češtině jen 10 493krát, což činí rozdíl cca 10 %.((Kdybychom provedli test statistické signifikance, zjistili bychom, že jde o rozdíl statisticky významný.)) Nejfrekventovanější zdrojové jazyky jsou současně i typologicky odlišné, a tudíž vhodné k ověření hypotézy týkající se překladů do češtiny: angličtina, němčina i francouzština všechny využívají zájmena (přivlastňovací, ale i jiná) častěji než čeština: |
| |
^ zdrojový jazyk ^ čeština ^ angličtina ^ němčina ^ francouzština ^ | ^ zdrojový jazyk ^ čeština ^ angličtina ^ němčina ^ francouzština ^ |