AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_paralelnim_korpusu [2022/11/25 10:07] – [Postup] Michal Škrabalkurz:hledani_v_paralelnim_korpusu [2024/01/22 11:45] (aktuální) – [Specifika vyhledávání v paralelním korpusu] Michal Škrabal
Řádek 12: Řádek 12:
 <WRAP clear/> <WRAP clear/>
  
-Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších ekvivalentů z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''.+Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších protějšků z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Zaškrtnutím okénka vedle těchto ekvivalentů se příslušný výraz či výrazy podbarví v pravé části paralelní konkordance.  
 +Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''.
  
-[{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]+Zároveň lze kliknout levým tlačítkem myši na libovolné slovo v paralelní konkordanci, to se podbarví a rozhraní se v paralelní části pokusí vyhledat jeho cizojazyčný ekvivalent (na základě nejčastějších protějšků podle aplikace Treq). 
 + 
 +[{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]FIXME
  
 <WRAP clear/> <WRAP clear/>
Řádek 72: Řádek 75:
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').
  
-==== Výsledky pro InterCorp v10 a BNC ====+==== Výsledky pro InterCorp v15 a BNC ====
  
 ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^
 | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 |
-| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 +| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v15 |  484 326 |  2885 
-| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%''  | InterCorp v10 (''div.srclang=en'') |  253 046 |  3304 |+| ''[tag=%%"PP\$" & lemma="his"%%] within %%<text srclang="en" />%%''  | InterCorp v15 (''text.srclang=en'') |  319 740 |  1904 |
  
 <WRAP round important 60%> <WRAP round important 60%>
Řádek 83: Řádek 86:
 </WRAP> </WRAP>
  
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → text.srclang**):
 ^ zdrojový jazyk ^   i.p.m. ^ ^ zdrojový jazyk ^   i.p.m. ^
-| angličtina | 3304 |  +| angličtina | 3735 |  
-| čeština 5257 |+| čeština 5368 | 
 +| španělština | 5857 |
 | ruština | 7584  | | ruština | 7584  |
-| francouzština | 2059  | +| francouzština | 3008  | 
-| němčina | 1457  |+| němčina | 1805  |
 | švédština | 3013  | | švédština | 3013  |
 +| italština | 1817 |
 +| srbština | 9573 |
  
 Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.  Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. 
Řádek 136: Řádek 142:
  
 <WRAP round help 50%> <WRAP round help 50%>
-  * Vyhledejte si v německé složce InterCorpu verze 10 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).+  * Vyhledejte si v německé složce InterCorpu verze 15 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).
   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.
 </WRAP> </WRAP>
  
-Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v10 dává [[https://kontext.korpus.cz/view?ctxattrs=word&pcq_pos_neg_intercorp_v10_de=pos&attr_vmode=visible&pagesize=40&align=intercorp_v10_de&q=~3EjE9A5VyG&viewmode=align&attrs=word&corpname=intercorp_v10_cs&refs=%3Ddoc.id&attr_allpos=kw&maincorp=intercorp_v10_cs|přes 170 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:+Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v15 dává [[https://www.korpus.cz/kontext/view?maincorp=intercorp_v15_de&viewmode=align&pagesize=100&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.id&q=~Z2KoE2ISQA6E190 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:
  
-[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht// - verze 10}}]+[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht//}}]
  
 <WRAP clear/> <WRAP clear/>