AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_v_paralelnim_korpusu [2021/04/19 14:35] – [Specifika vyhledávání v paralelním korpusu] michalskrabalkurz:hledani_v_paralelnim_korpusu [2022/11/25 10:07] – [Postup] michalskrabal
Řádek 1: Řádek 1:
 ====== Specifika vyhledávání v paralelním korpusu ======  ====== Specifika vyhledávání v paralelním korpusu ====== 
  
-Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v11 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).+Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v15 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
  
-Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v11 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.+Takto je možné hledat pouze v českých textech zahrnutých do InterCorpu, primárně nás však budou zajímat paralelní konkordance. K tomu je zapotřebí přidat další jazyk. V sekci **Zarovnané korpusy** si vybereme druhý jazyk (případně jazyky další), který se má zobrazovat v rámci jednoho dotazu, např. **InterCorp v15 - English**. Nově přidaný jazyk se objeví v samostatném rámečku, který lze pomocí modrého křížku vpravo opět smazat.
  
 První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný. První možností je zadat dotaz pouze do prvního jazyka. Budeme-li hledat například všechny překlady slova //pravda//, zadáme do prvního jazyka tento výraz s výchozím atributem **lemma** a dotaz na druhý jazyk necháme prázdný.
Řádek 47: Řádek 47:
  
   * Ne každý jazyk v korpusu InterCorp je [[pojmy:lemma|lemmatizovaný]] nebo [[pojmy:tag|tagovaný]], tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz [[cnk:intercorp:verze9#Morfosyntaktická anotace|seznam]].   * Ne každý jazyk v korpusu InterCorp je [[pojmy:lemma|lemmatizovaný]] nebo [[pojmy:tag|tagovaný]], tj. morfologicky označkovaný (např. u nizozemštiny či maďarštiny chybí ve verzi 9 lemmatizace), viz [[cnk:intercorp:verze9#Morfosyntaktická anotace|seznam]].
-  * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu.+  * Způsob tagování je pro různé jazyky odlišný -- může se lišit repertoárem a obsahem morfologických kategorií i způsobem jejich zápisu. Výjimkou je verze [[cnk:intercorp:verze13ud|13ud]], která je anotována morfologicky i syntakticky podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]], které jsou pro všechny jazyky jednotné.
   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
Řádek 53: Řádek 53:
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
  
-===== Srovnávací výzkum na korpusu InterCorp verze 10 =====+===== Srovnávací výzkum na korpusu InterCorp verze 15 =====
  
 Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.
Řádek 69: Řádek 69:
  
   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))
-  - Celý postup si ukážeme na InterCorpu ve verzi 10.+  - Celý postup si ukážeme na InterCorpu ve verzi 15.
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').