Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_v_paralelnim_korpusu [2022/08/13 13:26] – [Specifika korpusů řady InterCorp] alexandrrosen | kurz:hledani_v_paralelnim_korpusu [2022/11/25 10:07] – [Postup] michalskrabal |
---|
====== Specifika vyhledávání v paralelním korpusu ====== | ====== Specifika vyhledávání v paralelním korpusu ====== |
| |
Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v11 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější). | Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v15 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější). |
| |
Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v11 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat. | Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v15 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat. |
| |
První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný. | První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný. |
* Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení → Korpusová nastavení]]**.) | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení → Korpusová nastavení]]**.) |
| |
===== Srovnávací výzkum na korpusu InterCorp verze 10 ===== | ===== Srovnávací výzkum na korpusu InterCorp verze 15 ===== |
| |
Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. | Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. |
| |
- Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) | - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) |
- Celý postup si ukážeme na InterCorpu ve verzi 10. | - Celý postup si ukážeme na InterCorpu ve verzi 15. |
- Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). | - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). |
| |