Srovnatelné korpusy
Srovnatelné (comparable) korpusy se liší od korpusů paralelních tím, že neobsahují doslovné překlady textů, ale „texty vybrané podle týchž kritérií (žánru, zaměření, délky apod.) v různých jazycích (příp. v různých varietách jednoho jazyka)“1). Srovnatelné korpusy bývají vícejazyčné, ale např. projekt ICE ukazuje druhou možnost: jednojazyčný korpus zachycující regionální variety daného jazyka. U tohoto typu korpusů velmi záleží na dodržení totožné metodologie při sestavování: podstatný není jen žánrově či časově vymezený výběr textů, ale kupříkladu i shoda v jejich délce.
Příklady srovnatelných korpusů
- Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina).
- Projekt ICE (International Corpus of English) shromažďuje srovnatelné korpusy regionálních variet angličtiny, např. britské (ICE-GB) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na čtrnáct (ne vždy plně) srovnatelných korpusů.
- Korpus AFEWC obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.
- V rámci Českého národního korpusu je k dispozici srovnatelný korpus JEROME, obsahující nepřekladovou a překladovou češtinu (85 mil. slov), a korpusy řady WaC (Web as Corpus) obsahující např. britskou angličtinu Korpus ukWaC, němčinu a další jazyky.
- Přes rozhraní KonText je zpřístupněna i práce V. Benka, a sice srovnatelné korpusy Aranea, obsahující 1 miliardu slov v sedmi evropských jazycích.
Srovnávání textů
Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na corpora-list
proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů 2) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů:
Copyfind.
Velkou potíž představuje stanovení určité míry podobnosti.3) Adam Kilgarriff & Tony Russell-Rose4) vyhodnocovali různé metriky pro srovnávání korpusů a vytvořili metodu known-similarity corpora na základě korpusu KSC a METER.
Současnou bibliografii k tématu nabízí dizertace Daniela Baera, navrhující srovnávat tři hodnoty: obsah, strukturu a styl textu. Je nicméně jasné, že bádání v dané oblasti se velmi rychle vyvíjí a máloco je pevně dané.