Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:18] – [Specifika vyhledávání v paralelním korpusu] michalskrabal | kurz:hledani_v_paralelnim_korpusu [2022/08/13 13:26] – [Specifika korpusů řady InterCorp] alexandrrosen | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== Specifika vyhledávání v paralelním korpusu ====== | + | ====== Specifika vyhledávání v paralelním korpusu ====== |
- | Z výchozího rozcestníku, | + | Z výchozího rozcestníku, |
- | Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp | + | Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp |
- | První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka | + | První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka |
- | [{{ic_vyber.png? | + | [{{ic_vyber.png? |
- | [{{lemma_pravda.png? | + | [{{lemma_pravda.png? |
<WRAP clear/> | <WRAP clear/> | ||
- | Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině | + | Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině |
- | [{{konkordance_lemma_pravda.png? | + | [{{konkordance_lemma_pravda.png? |
<WRAP clear/> | <WRAP clear/> | ||
Řádek 21: | Řádek 21: | ||
Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto: | Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto: | ||
- | [{{konkordance_pravda_truth.png? | + | [{{konkordance_pravda_truth.png? |
<WRAP clear/> | <WRAP clear/> | ||
Řádek 28: | Řádek 28: | ||
Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy: | Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy: | ||
- | Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: '' | + | Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: '' |
- | [{{neobsahuje_lemma_truth_true.png? | + | [{{neobsahuje_lemma_truth_true.png? |
- | [{{vysledek_neobsahuje.png? | + | [{{vysledek_neobsahuje.png? |
<WRAP clear/> | <WRAP clear/> | ||
Řádek 41: | Řádek 41: | ||
Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte. | Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte. | ||
+ | |||
===== Specifika korpusů řady InterCorp ===== | ===== Specifika korpusů řady InterCorp ===== | ||
Řádek 46: | Řádek 47: | ||
* Ne každý jazyk v korpusu InterCorp je [[pojmy: | * Ne každý jazyk v korpusu InterCorp je [[pojmy: | ||
- | * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu. | + | * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu. Výjimkou je verze [[cnk: |
* Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné. | * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné. | ||
* Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | ||
- | * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // | + | * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // |
* Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | ||
- | ===== Srovnávací výzkum na korpusu InterCorp verze 7 ===== | + | ===== Srovnávací výzkum na korpusu InterCorp verze 10 ===== |
- | Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání | + | Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání |
<WRAP round help 70%> | <WRAP round help 70%> | ||
Řádek 68: | Řádek 69: | ||
- Nejprve je dobré zjistit [[pojmy: | - Nejprve je dobré zjistit [[pojmy: | ||
- | - Celý postup si ukážeme na InterCorpu ve verzi 7. | + | - Celý postup si ukážeme na InterCorpu ve verzi 10. |
- Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus ('' | - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus ('' | ||
- | ==== Výsledky pro InterCorp | + | ==== Výsledky pro InterCorp |
- | ^ lemma ^ tag ^ korpus ^ abs. frekvence ^ [[pojmy: | + | ^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy: |
- | | //his// | dps, pnp, unc | BNC | 409 825 | 3684 | | + | | '' |
- | | //his// | %%pp$%% | InterCorp | + | | '' |
- | | //his// | %%pp$%% | InterCorp | + | | '' |
<WRAP round important 60%> | <WRAP round important 60%> | ||
Řádek 82: | Řádek 83: | ||
</ | </ | ||
- | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Typy textů → div.srclang**): | + | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**): |
^ zdrojový jazyk ^ | ^ zdrojový jazyk ^ | ||
- | | angličtina | 2435 | | + | | angličtina | 3304 | |
- | | čeština | + | | čeština |
- | | ruština | 7627 | | + | | ruština | 7584 | |
- | | francouzština | 1500 | | + | | francouzština | 2059 | |
- | | němčina | 1440 | | + | | němčina | 1457 | |
- | | švédština | 3046 | | + | | švédština | 3013 | |
- | Celkově se tedy zdá, že zájmeno //his// je v textech | + | Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. |
===== Srovnávací výzkum na korpusu Jerome ===== | ===== Srovnávací výzkum na korpusu Jerome ===== | ||
- | Můžeme | + | Podobné srovnání můžeme provést |
<WRAP round help 70%> | <WRAP round help 70%> | ||
Řádek 103: | Řádek 104: | ||
</ | </ | ||
- | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena | + | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí |
^ zdrojový jazyk ^ čeština ^ angličtina | ^ zdrojový jazyk ^ čeština ^ angličtina | ||
Řádek 123: | Řádek 124: | ||
| publicistika | 8360 | | | publicistika | 8360 | | ||
- | Je vidět, že překladovost hraje roli, neméně podstatné ale je, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. | + | Je vidět, že překladovost hraje roli, neméně podstatné ale je i to, z jakých textových typů (a žánrů, pokud chceme rozlišovat podrobněji) se skládá korpus, na němž se zakládají konkrétní výsledky. |
===== Další možné využití korpusu InterCorp: falešní přátelé ===== | ===== Další možné využití korpusu InterCorp: falešní přátelé ===== | ||
Řádek 129: | Řádek 130: | ||
Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. | Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. | ||
- | [{{vyberinterc_macher.png? | + | [{{vyberinterc_macher.png? |
<WRAP clear/> | <WRAP clear/> | ||
Řádek 135: | Řádek 136: | ||
<WRAP round help 50%> | <WRAP round help 50%> | ||
- | * Vyhledejte si v německé složce InterCorpu verze 6 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: '' | + | * Vyhledejte si v německé složce InterCorpu verze 10 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: '' |
* Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty. | * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty. | ||
</ | </ | ||
- | Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp | + | Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp |
- | [{{vyberinterc_ksicht_a_ekvivalenty.png? | + | [{{vyberinterc_ksicht_a_ekvivalenty.png? |
<WRAP clear/> | <WRAP clear/> | ||
- | Vidíme, že v náhodném vzorku jedenácti dokladů (z celkových 65) je //Gesicht// ekvivalentem //ksichtu// pouze čtyřikrát. Z analýzy konkordancí je zřejmé, k jak výraznému významovému posunu směrem k pragmaticky zatíženému, | ||
---- | ---- |