Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| kurz:hledani_v_paralelnim_korpusu [2021/04/19 14:35] – [Specifika vyhledávání v paralelním korpusu] michalskrabal | kurz:hledani_v_paralelnim_korpusu [2024/01/22 11:45] (aktuální) – [Specifika vyhledávání v paralelním korpusu] michalskrabal | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| ====== Specifika vyhledávání v paralelním korpusu ====== | ====== Specifika vyhledávání v paralelním korpusu ====== | ||
| - | Z výchozího rozcestníku, | + | Z výchozího rozcestníku, |
| - | Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp | + | Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp |
| První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný. | První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný. | ||
| Řádek 12: | Řádek 12: | ||
| <WRAP clear/> | <WRAP clear/> | ||
| - | Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy: | + | Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy: |
| + | Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy '' | ||
| - | [{{konkordance_lemma_pravda.png? | + | Zároveň lze kliknout levým tlačítkem myši na libovolné slovo v paralelní konkordanci, |
| + | |||
| + | [{{konkordance_lemma_pravda.png? | ||
| <WRAP clear/> | <WRAP clear/> | ||
| Řádek 47: | Řádek 50: | ||
| * Ne každý jazyk v korpusu InterCorp je [[pojmy: | * Ne každý jazyk v korpusu InterCorp je [[pojmy: | ||
| - | * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu. | + | * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu. Výjimkou je verze [[cnk: |
| * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné. | * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné. | ||
| * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | ||
| Řádek 53: | Řádek 56: | ||
| * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | ||
| - | ===== Srovnávací výzkum na korpusu InterCorp verze 10 ===== | + | ===== Srovnávací výzkum na korpusu InterCorp verze 15 ===== |
| Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. | Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. | ||
| Řádek 69: | Řádek 72: | ||
| - Nejprve je dobré zjistit [[pojmy: | - Nejprve je dobré zjistit [[pojmy: | ||
| - | - Celý postup si ukážeme na InterCorpu ve verzi 10. | + | - Celý postup si ukážeme na InterCorpu ve verzi 15. |
| - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus ('' | - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus ('' | ||
| - | ==== Výsledky pro InterCorp | + | ==== Výsledky pro InterCorp |
| ^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy: | ^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy: | ||
| | '' | | '' | ||
| - | | '' | + | | '' |
| - | | '' | + | | '' |
| <WRAP round important 60%> | <WRAP round important 60%> | ||
| Řádek 83: | Řádek 86: | ||
| </ | </ | ||
| - | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**): | + | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → text.srclang**): |
| ^ zdrojový jazyk ^ | ^ zdrojový jazyk ^ | ||
| - | | angličtina | 3304 | | + | | angličtina | 3735 | |
| - | | čeština | + | | čeština |
| + | | španělština | 5857 | | ||
| | ruština | 7584 | | | ruština | 7584 | | ||
| - | | francouzština | 2059 | | + | | francouzština | 3008 | |
| - | | němčina | 1457 | | + | | němčina | 1805 | |
| | švédština | 3013 | | | švédština | 3013 | | ||
| + | | italština | 1817 | | ||
| + | | srbština | 9573 | | ||
| Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. | Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. | ||
| Řádek 136: | Řádek 142: | ||
| <WRAP round help 50%> | <WRAP round help 50%> | ||
| - | * Vyhledejte si v německé složce InterCorpu verze 10 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: '' | + | * Vyhledejte si v německé složce InterCorpu verze 15 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: '' |
| * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty. | * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty. | ||
| </ | </ | ||
| - | Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp | + | Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp |
| - | [{{vyberinterc_ksicht_a_ekvivalenty.png? | + | [{{vyberinterc_ksicht_a_ekvivalenty.png? |
| <WRAP clear/> | <WRAP clear/> | ||