Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
kurz:hledani_v_paralelnim_korpusu [2016/09/26 14:50] – [Další možné využití korpusu InterCorp: falešní přátelé] vaclavcvrcek | kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:36] – [Výsledky pro InterCorp v7 a BNC] michalskrabal | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Specifika vyhledávání v paralelním korpusu ====== | ====== Specifika vyhledávání v paralelním korpusu ====== | ||
- | Jak ukazuje [[cnk: | + | Z výchozího rozcestníku, |
- | + | Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp | |
- | ===== Paralelní korpusy v rozhraní KonText ===== | + | |
- | + | ||
- | Jak začít s hledáním v paralelním korpusu? Z výchozího rozcestníku, | + | |
- | + | ||
- | Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp | + | |
První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz: | První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz: | ||
- | [{{ic_vyber.png? | + | [{{ic_vyber.png? |
- | [{{lemma_pravda.png? | + | [{{lemma_pravda.png? |
<WRAP clear/> | <WRAP clear/> | ||
Řádek 19: | Řádek 14: | ||
Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní // | Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní // | ||
- | [{{konkordance_lemma_pravda.png? | + | [{{konkordance_lemma_pravda.png? |
<WRAP clear/> | <WRAP clear/> | ||
- | Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde hledané slovo v prvním jazyce odpovídá hledanému lexému v jazyce druhém. Zaškrtneme-li volbu **zobrazit i prázdné řádky**, bude seznam obsahovat i řádky, kde v druhém jazyce nebyla věta přeložena. Výsledná konkordance by měla vypadat takto: | + | Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv |
- | [{{konkordance_pravda_truth.png? | + | [{{konkordance_pravda_truth.png? |
<WRAP clear/> | <WRAP clear/> | ||
Řádek 35: | Řádek 30: | ||
Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: '' | Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: '' | ||
- | [{{neobsahuje_lemma_truth_true.png? | + | |
- | [{{vysledek_neobsahuje.png? | + | [{{neobsahuje_lemma_truth_true.png? |
+ | [{{vysledek_neobsahuje.png? | ||
<WRAP clear/> | <WRAP clear/> | ||
Řádek 54: | Řádek 50: | ||
* Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | ||
* U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // | * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // | ||
- | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | + | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: |
- | ===== Srovnávací výzkum na korpusu InterCorp verze 7 ===== | + | ===== Srovnávací výzkum na korpusu InterCorp verze 10 ===== |
- | Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání | + | Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání |
<WRAP round help 70%> | <WRAP round help 70%> | ||
Řádek 72: | Řádek 68: | ||
- Nejprve je dobré zjistit [[pojmy: | - Nejprve je dobré zjistit [[pojmy: | ||
- | - Celý postup si ukážeme na InterCorpu ve verzi 7. | + | - Celý postup si ukážeme na InterCorpu ve verzi 10. |
- Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus ('' | - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus ('' | ||
- | ==== Výsledky pro InterCorp | + | ==== Výsledky pro InterCorp |
- | ^ lemma ^ tag ^ korpus ^ abs. frekvence ^ [[pojmy: | + | ^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy: |
- | | //his// | dps, pnp, unc | BNC | 409 825 | 3684 | | + | | '' |
- | | //his// | %%pp$%% | InterCorp | + | | '' |
- | | //his// | %%pp$%% | InterCorp | + | | '' |
<WRAP round important 60%> | <WRAP round important 60%> | ||
Řádek 86: | Řádek 82: | ||
</ | </ | ||
- | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Typy textu → div.srclang**): | + | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Typy textů |
^ zdrojový jazyk ^ | ^ zdrojový jazyk ^ | ||
| angličtina | 2435 | | | angličtina | 2435 | | ||
Řádek 107: | Řádek 103: | ||
</ | </ | ||
- | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textu** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, | + | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, |
^ zdrojový jazyk ^ čeština ^ angličtina | ^ zdrojový jazyk ^ čeština ^ angličtina |