Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:hledani_v_paralelnim_korpusu [2022/11/25 10:01] – [Srovnávací výzkum na korpusu InterCorp verze 10] michalskrabal | kurz:hledani_v_paralelnim_korpusu [2024/01/22 11:45] (aktuální) – [Specifika vyhledávání v paralelním korpusu] michalskrabal |
---|
<WRAP clear/> | <WRAP clear/> |
| |
Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších ekvivalentů z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''. | Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších protějšků z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Zaškrtnutím okénka vedle těchto ekvivalentů se příslušný výraz či výrazy podbarví v pravé části paralelní konkordance. |
| Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''. |
| |
[{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}] | Zároveň lze kliknout levým tlačítkem myši na libovolné slovo v paralelní konkordanci, to se podbarví a rozhraní se v paralelní části pokusí vyhledat jeho cizojazyčný ekvivalent (na základě nejčastějších protějšků podle aplikace Treq). |
| |
| [{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]FIXME |
| |
<WRAP clear/> | <WRAP clear/> |
| |
- Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) | - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) |
- Celý postup si ukážeme na InterCorpu ve verzi 10. | - Celý postup si ukážeme na InterCorpu ve verzi 15. |
- Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). | - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). |
| |
==== Výsledky pro InterCorp v10 a BNC ==== | ==== Výsledky pro InterCorp v15 a BNC ==== |
| |
^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ | ^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ |
| ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC | 409 825 | 3684 | | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC | 409 825 | 3684 | |
| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 | 365 903 | 2431 | | | ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v15 | 484 326 | 2885 | |
| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%'' | InterCorp v10 (''div.srclang=en'') | 253 046 | 3304 | | | ''[tag=%%"PP\$" & lemma="his"%%] within %%<text srclang="en" />%%'' | InterCorp v15 (''text.srclang=en'') | 319 740 | 1904 | |
| |
<WRAP round important 60%> | <WRAP round important 60%> |
</WRAP> | </WRAP> |
| |
Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**): | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → text.srclang**): |
^ zdrojový jazyk ^ i.p.m. ^ | ^ zdrojový jazyk ^ i.p.m. ^ |
| angličtina | 3304 | | | angličtina | 3735 | |
| čeština | 5257 | | | čeština | 5368 | |
| | španělština | 5857 | |
| ruština | 7584 | | | ruština | 7584 | |
| francouzština | 2059 | | | francouzština | 3008 | |
| němčina | 1457 | | | němčina | 1805 | |
| švédština | 3013 | | | švédština | 3013 | |
| | italština | 1817 | |
| | srbština | 9573 | |
| |
Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. | Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. |
| |
<WRAP round help 50%> | <WRAP round help 50%> |
* Vyhledejte si v německé složce InterCorpu verze 10 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk). | * Vyhledejte si v německé složce InterCorpu verze 15 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk). |
* Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty. | * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty. |
</WRAP> | </WRAP> |
| |
Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v10 dává [[https://kontext.korpus.cz/view?ctxattrs=word&pcq_pos_neg_intercorp_v10_de=pos&attr_vmode=visible&pagesize=40&align=intercorp_v10_de&q=~3EjE9A5VyG&viewmode=align&attrs=word&corpname=intercorp_v10_cs&refs=%3Ddoc.id&attr_allpos=kw&maincorp=intercorp_v10_cs|přes 170 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: | Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v15 dává [[https://www.korpus.cz/kontext/view?maincorp=intercorp_v15_de&viewmode=align&pagesize=100&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.id&q=~Z2KoE2ISQA6E| 190 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty: |
| |
[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht// - verze 10}}] | [{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht//}}] |
| |
<WRAP clear/> | <WRAP clear/> |