AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_paralelnim_korpusu [2018/08/08 14:49] – [Srovnávací výzkum na korpusu Jerome] Michal Škrabalkurz:hledani_v_paralelnim_korpusu [2024/01/22 11:45] (aktuální) – [Specifika vyhledávání v paralelním korpusu] Michal Škrabal
Řádek 1: Řádek 1:
-====== Specifika vyhledávání v paralelním korpusu ======+====== Specifika vyhledávání v paralelním korpusu ====== 
  
-Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v10 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).+Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v15 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
  
-Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v10 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.+Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v15 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
  
-První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka jako [[kurz:prvni_dotaz#nac_je_ktery_typ_dotazu_vhodny|typ dotazu]] **Lemma** //pravda// a dotaz na druhý jazyk necháme prázdný.+První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný.
  
-[{{ic_vyber.png?300|Výběr korpusu FIXME}}] +[{{ic_vyber.png?direct&300|Výběr korpusu }}] 
-[{{lemma_pravda.png?300|Zadání dotazu na lemma //pravda// FIXME}}]+[{{lemma_pravda.png?direct&300|Zadání dotazu na lemma //pravda// }}]
  
 <WRAP clear/> <WRAP clear/>
  
-Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině je adjektivní //true// a substantivní //truth//.((Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]])).+Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších protějšků z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Zaškrtnutím okénka vedle těchto ekvivalentů se příslušný výraz či výrazy podbarví v pravé části paralelní konkordance.  
 +Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřítkliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''.
  
-[{{konkordance_lemma_pravda.png?600|Vyhodnocení dotazu na lemma //pravda// v češtině FIXME}}]+Zároveň lze kliknout levým tlačítkem myši na libovolné slovo v paralelní konkordanci, to se podbarví a rozhraní se v paralelní části pokusí vyhledat jeho cizojazyčný ekvivalent (na základě nejčastějších protějšků podle aplikace Treq). 
 + 
 +[{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]FIXME
  
 <WRAP clear/> <WRAP clear/>
Řádek 21: Řádek 24:
 Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto: Pokud chceme prozkoumat věty, kde je //pravda// přeložena jako //truth//, můžeme položit dotaz v obou jazycích. Výsledek je pak omezen pouze na seznam konkordančních řádků, kde se objevují obě hledaná slova (nikoliv však nutně jako vzájemné ekvivalenty). Výsledná konkordance by měla vypadat takto:
  
-[{{konkordance_pravda_truth.png?600|Konkordance českého lemmatu //pravda// a anglického //truth// FIXME}}]+[{{konkordance_pravda_truth.png?direct&600|Konkordance českého lemmatu //pravda// a anglického //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 28: Řádek 31:
 Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem. Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem.
  
-Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**.+Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **Příklad neobsahuje odpovídající výsledky**.
  
  
-[{{neobsahuje_lemma_truth_true.png?300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}] +[{{neobsahuje_lemma_truth_true.png?direct&300|Dotaz na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// }}] 
-[{{vysledek_neobsahuje.png?480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// FIXME}}]+[{{vysledek_neobsahuje.png?direct&480|Vyhodnocení dotazu na lemma //pravda//, který neobsahuje lemmata  //true// či //truth// }}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 41: Řádek 44:
  
 Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte. Pokud vytváříte subkorpus pomocí jiných parametrů, mějte na paměti, že omezení se týkají vždy pouze jazyka, na jehož základě subkorpus vytváříte.
 +
 ===== Specifika korpusů řady InterCorp ===== ===== Specifika korpusů řady InterCorp =====
  
Řádek 46: Řádek 50:
  
   * Ne každý jazyk v korpusu InterCorp je [[pojmy:lemma|lemmatizovaný]] nebo [[pojmy:tag|tagovaný]], tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz [[cnk:intercorp:verze9#Morfosyntaktická anotace|seznam]].   * Ne každý jazyk v korpusu InterCorp je [[pojmy:lemma|lemmatizovaný]] nebo [[pojmy:tag|tagovaný]], tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz [[cnk:intercorp:verze9#Morfosyntaktická anotace|seznam]].
-  * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu.+  * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu. Výjimkou je verze [[cnk:intercorp:verze13ud|13ud]], která je anotována morfologicky i syntakticky podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]], které jsou pro všechny jazyky jednotné.
   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
-  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou.+  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat v souladu s dělením podle příslušného taggeru a části spřežky oddělit mezerou.
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
  
-===== Srovnávací výzkum na korpusu InterCorp verze 10 =====+===== Srovnávací výzkum na korpusu InterCorp verze 15 =====
  
 Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.
Řádek 68: Řádek 72:
  
   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))
-  - Celý postup si ukážeme na InterCorpu ve verzi 10.+  - Celý postup si ukážeme na InterCorpu ve verzi 15.
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').
  
-==== Výsledky pro InterCorp v10 a BNC ====+==== Výsledky pro InterCorp v15 a BNC ====
  
 ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^
 | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 |
-| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 +| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v15 |  484 326 |  2885 
-| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%''  | InterCorp v10 (''div.srclang=en'') |  253 046 |  3304 |+| ''[tag=%%"PP\$" & lemma="his"%%] within %%<text srclang="en" />%%''  | InterCorp v15 (''text.srclang=en'') |  319 740 |  1904 |
  
 <WRAP round important 60%> <WRAP round important 60%>
Řádek 82: Řádek 86:
 </WRAP> </WRAP>
  
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → text.srclang**):
 ^ zdrojový jazyk ^   i.p.m. ^ ^ zdrojový jazyk ^   i.p.m. ^
-| angličtina | 3304 |  +| angličtina | 3735 |  
-| čeština 5257 |+| čeština 5368 | 
 +| španělština | 5857 |
 | ruština | 7584  | | ruština | 7584  |
-| francouzština | 2059  | +| francouzština | 3008  | 
-| němčina | 1457  |+| němčina | 1805  |
 | švédština | 3013  | | švédština | 3013  |
 +| italština | 1817 |
 +| srbština | 9573 |
  
 Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně.  Celkově se tedy zdá, že zájmeno //his// je v textech distribuováno v závislosti na typu výchozího jazyka velmi nerovnoměrně. 
Řádek 129: Řádek 136:
 Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce.  Některé etymologicky spřízněné výrazy se významově výrazně rozešly. Z paralelních konkordancí je takový posun jasně prokazatelný. Např. český //machr// a německý //Macher// ukazují značný rozdíl -- německý chlapík totiž v překladech není namyšlený český floutek, ale docela obyčejný hybatel dění či strůjce, původce. 
  
-[{{vyberinterc_macher.png?700|Konkordance se slovem //Macher//}}]+[{{vyberinterc_macher.png?direct&700|Konkordance se slovem //Macher//}}]
  
 <WRAP clear/> <WRAP clear/>
Řádek 135: Řádek 142:
  
 <WRAP round help 50%> <WRAP round help 50%>
-  * Vyhledejte si v německé složce InterCorpu verze lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).+  * Vyhledejte si v německé složce InterCorpu verze 15 lemma //Gesicht// a v jeho české paralele slova obsahující řetězec //ksicht//: ''[word=%%".*ksicht.*"%%]'' (nedbejte na zdrojový jazyk).
   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.   * Naopak v české části najděte lemma //ksicht// a podívejte se na jeho německé ekvivalenty.
 </WRAP> </WRAP>
  
-Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v6 dává [[https://kontext.korpus.cz/view?q=~CegzHX74&align=intercorp_cs&attr_allpos=kw&attrs=word&corpname=intercorp_de&ctxattrs=word&maincorp=intercorp_de&pagesize=40&refs=%3Ddiv.id&sel_aligned=intercorp_cs&structs=p%2Cg%2Cerr%2Ccorr&viewmode=align&pcq_pos_neg_intercorp_cs=pos|přes třicet dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:+Hledání překladů lemmatu //Gesicht// jako //ksicht// a naopak v paralelním korpusu InterCorp v15 dává [[https://www.korpus.cz/kontext/view?maincorp=intercorp_v15_de&viewmode=align&pagesize=100&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.id&q=~Z2KoE2ISQA6E190 dokladů]]. Jasné potvrzení o užitečnosti paralelních korpusů však poskytnou především výsledky pro dotaz čistě po //ksichtu//, kdy v konkordancích manuálně vyhledáme patřičné významové ekvivalenty:
  
-[{{vyberinterc_ksicht_a_ekvivalenty.png?700|Konkordance se slovem //ksicht//}}]+[{{vyberinterc_ksicht_a_ekvivalenty.png?direct&700|Konkordance se slovem //ksicht//}}]
  
 <WRAP clear/> <WRAP clear/>
  
  
-Vidíme, že v náhodném vzorku jedenácti dokladů (z celkových 65) je //Gesicht// ekvivalentem //ksichtu// pouze čtyřikrát. Z analýzy konkordancí je zřejmé, k jak výraznému významovému posunu směrem k pragmaticky zatíženému, expresivnímu výrazu při převzetí slova do češtiny došlo.  
  
 ---- ----