Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_v_paralelnim_korpusu [2022/11/25 10:01] – [Srovnávací výzkum na korpusu InterCorp verze 10] michalskrabal | kurz:hledani_v_paralelnim_korpusu [2022/11/25 10:21] – [Výsledky pro InterCorp v15 a BNC] michalskrabal |
---|
| |
- Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) | - Nejprve je dobré zjistit [[pojmy:tag|tag]] daného zájmena, to kvůli možné tvarové homonymii (//his// by mohla být např. nějaká zkratka). Seznam tagů je k k dispozici [[cnk:intercorp:verze9#morfosyntakticka_anotace|v popisu korpusu]], konkrétně [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglický tagset je zde]]. Stejně tak je ale možné zadat do příslušného korpusu [[pojmy:lemma|lemma]] //his// a podívat se do výsledků **[[manualy:kontext:frekvencni_distribuce|Frekvence → Vlastní]]**, kde si nastavíme atribut **tag**. Takto přijdeme i na to, zda jsou vůbec některé tvary //his// tagované jinak než jako zájmeno.(([[https://kontext.korpus.cz/view?q=~euhddSSs&attr_allpos=kw&attrs=word&corpname=bnc&ctxattrs=word&pagesize=40&refs=%3Dbncdoc.id&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|5 tvarů označených v korpusu BNC tagem UNC]] jsou ve skutečnosti rovněž zájmena.)) |
- Celý postup si ukážeme na InterCorpu ve verzi 10. | - Celý postup si ukážeme na InterCorpu ve verzi 15. |
- Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). | - Pro vyhledávání v původní angličtině si vytvoříme příslušný subkorpus (''div.srclang=en''). |
| |
==== Výsledky pro InterCorp v10 a BNC ==== | ==== Výsledky pro InterCorp v15 a BNC ==== |
| |
^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ | ^ dotaz ^ korpus ^ abs. frekvence ^ [[pojmy:ipm|rel. frekvence (i.p.m.)]] ^ |
| ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC | 409 825 | 3684 | | | ''[lemma=%%"%%his%%"%% & tag=%%"%%DPS|PNP|UNC%%"%%]'' | BNC | 409 825 | 3684 | |
| ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v10 | 365 903 | 2431 | | | ''[tag=%%"%%PP\$%%"%% & lemma=%%"%%his%%"%%]'' | InterCorp v15 | 484 326 | 2885 | |
| ''[tag=%%"PP\$" & lemma="his"%%] within %%<div srclang="en" />%%'' | InterCorp v10 (''div.srclang=en'') | 253 046 | 3304 | | | ''[tag=%%"PP\$" & lemma="his"%%] within %%<text srclang="en" />%%'' | InterCorp v15 (''text.srclang=en'') | 319 740 | 1904 | |
| |
<WRAP round important 60%> | <WRAP round important 60%> |
</WRAP> | </WRAP> |
| |
Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → div.srclang**): | Po tomto srovnání se podívejme ještě na neoriginální část InterCorpu a výskyt lemmatu //his// (**Frekvence → Podle typů textů → text.srclang**): |
^ zdrojový jazyk ^ i.p.m. ^ | ^ zdrojový jazyk ^ i.p.m. ^ |
| angličtina | 3304 | | | angličtina | 3735 | |
| čeština | 5257 | | | čeština | 5368 | |
| ruština | 7584 | | | ruština | 7584 | |
| francouzština | 2059 | | | francouzština | 2059 | |