AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_v_paralelnim_korpusu [2022/11/23 20:01] michalskrabalkurz:hledani_v_paralelnim_korpusu [2022/11/25 10:21] – [Výsledky pro InterCorp v15 a BNC] michalskrabal
Řádek 53: Řádek 53:
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)
  
-===== Srovnávací výzkum na korpusu InterCorp verze 10 =====+===== Srovnávací výzkum na korpusu InterCorp verze 15 =====
  
 Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka. Primárně jsou paralelní korpusy určeny pro provádění kontrastivního výzkumu. Lze je ovšem využít i pro srovnávání vlivu překladovosti v rámci jednoho jazyka.
Řádek 69: Řádek 69:
  
   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))   - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.))
-  - Celý postup si ukážeme na InterCorpu ve verzi 10.+  - Celý postup si ukážeme na InterCorpu ve verzi 15.
   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').   - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en'').
  
-==== Výsledky pro InterCorp v10 a BNC ====+==== Výsledky pro InterCorp v15 a BNC ====
  
 ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ ^ dotaz ^ korpus ^  abs. frekvence ^  [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^
 | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC |  409 825 |  3684 |
-| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 |  365 903 |  2431 +| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v15 |  484 326 |  2885 
-| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%''  | InterCorp v10 (''div.srclang=en'') |  253 046 |  3304 |+| ''[tag=%%"PP\$" & lemma="his"%%] within %%<text srclang="en" />%%''  | InterCorp v15 (''text.srclang=en'') |  319 740 |  1904 |
  
 <WRAP round important 60%> <WRAP round important 60%>
Řádek 83: Řádek 83:
 </WRAP> </WRAP>
  
-Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**):+Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → text.srclang**):
 ^ zdrojový jazyk ^   i.p.m. ^ ^ zdrojový jazyk ^   i.p.m. ^
-| angličtina | 3304 |  +| angličtina | 3735 |  
-| čeština 5257 |+| čeština 5368 |
 | ruština | 7584  | | ruština | 7584  |
 | francouzština | 2059  | | francouzština | 2059  |