Toto je starší verze dokumentu!
Srovnatelné korpusy
Srovnatelné (comparable) korpusy se liší od korpusů paralelních tím, že neobsahují doslovné překlady textů, ale „texty vybrané podle týchž kritérií (žánru, zaměření, délky apod.) v různých jazycích (příp. v různých varietách jednoho jazyka)“1). Srovnatelné korpusy bývají vícejazyčné, ale např. projekt ICE ukazuje druhou možnost: jednojazyčný korpus zachycující regionální variety daného jazyka. U tohoto typu korpusů velmi záleží na dodržení totožné metodologie při sestavování: podstatný není jen žánrově či časově vymezený výběr textů, ale kupříkladu i shoda v jejich délce.
Příklady srovnatelných korpusů
- Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina).
- Projekt ICE (International Corpus of English) shromažďuje srovnatelné korpusy regionálních variet angličtiny, např. britské (ICE-GB) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na čtrnáct (ne vždy plně) srovnatelných korpusů.
- Korpus AFEWC obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.
- V rámci Českého národního korpusu je k dispozici srovnatelný korpus JEROME, obsahující nepřekladovou a překladovou češtinu (85 mil. slov), a korpusy řady WaC (Web as Corpus) obsahující např. britskou angličtinu Korpus ukWaC, němčinu a další jazyky.
- Přes rozhraní KonText je zpřístupněna i práce V. Benka, a sice srovnatelné korpusy Aranea, obsahující 1 miliardu slov v sedmi evropských jazycích.
Srovnávání textů
Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na corpora-list
proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů 2) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů:
Copyfind.
Velkou potíž představuje stanovení určité míry podobnosti.3) vyhodnocovali různé metriky pro srovnávání korpusů a vytvořili metodu known-similarity corpora na základě korpusu KSC a METER.
Současnou bibliografii k tématu nabízí dizertace Daniela Baera, navrhující srovnávat tři hodnoty: obsah, strukturu a styl textu. Je nicméně jasné, že bádání v dané oblasti se velmi rychle vyvíjí a máloco je pevně dané.