Nastavení

Srovnatelné korpusy

Srovnatelné (comparable) korpusy se liší od korpusů paralelních tím, že neobsahují doslovné překlady textů, ale „texty vybrané podle týchž kritérií (žánru, zaměření, délky apod.) v různých jazycích (příp. v různých varietách jednoho jazyka)“1). Srovnatelné korpusy bývají vícejazyčné, ale např. projekt ICE ukazuje druhou možnost: jednojazyčný korpus zachycující regionální variety daného jazyka. U tohoto typu korpusů velmi záleží na dodržení totožné metodologie při sestavování: podstatný není jen žánrově či časově vymezený výběr textů, ale kupříkladu i shoda v jejich délce.

Příklady srovnatelných korpusů

  • Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina).
  • Projekt ICE (International Corpus of English) shromažďuje srovnatelné korpusy regionálních variet angličtiny, např. britské (ICE-GB) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na čtrnáct (ne vždy plně) srovnatelných korpusů.
  • Korpus AFEWC obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.
  • V rámci Českého národního korpusu je k dispozici srovnatelný korpus JEROME, obsahující původní a překladovou češtinu (85 mil. slov) a korpusy řady WaC (Web as Corpus) obsahující např. britskou angličtinu Korpus ukWaC, němčinu a další jazyky.
  • Přes rozhraní KonText je zpřístupněna i práce V. Benka, a sice srovnatelné korpusy Aranea, obsahující 1 miliardu slov v sedmi evropských jazycích.

Srovnávání textů

Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na corpora-list proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů 2) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů: Copyfind.

Velkou potíž představuje stanovení určité míry podobnosti. 3) vyhodnocovali různé metriky pro srovnávání korpusů a vytvořili metodu known-similarity corpora na základě korpusu KSC a METER.

Současnou bibliografii k tématu nabízí dizertace Daniela Baera, navrhující srovnávat tři hodnoty: obsah, strukturu a styl textu. Je nicméně jasné, že bádání v dané oblasti se velmi rychle vyvíjí a máloco je pevně dané.

Související odkazy

1) Chlumská, L., Není korpus jako korpus: Korpusy v kontrastivní lingvistice a translatologii. Časopis pro moderní filologii 96, 2014, č. 2, s. 225
2) Srovnejme s tím, že 20 newsgroups je oblíbený datový zdroj sestávající z dvaceti různých publicistických tematických oblastí.
3) Věnoval se tomu i workshop SemEval Text Similarity task 2013, jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (similarity score). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou dostupná zdetorsten.zesch@uni-due.de).) Adam Kilgarriff & Tony Russell-Rose((tgr@russellrose.com