Nastavení

Toto je starší verze dokumentu!


Srovnatelné korpusy

Srovnatelné (comparable) korpusy se liší od korpusů paralelních tím, že neobsahují doslovné překlady textů, ale „texty vybrané podle týchž kritérií (žánru, zaměření, délky apod.) v různých jazycích (příp. v různých varietách jednoho jazyka)“1). Srovnatelné korpusy bývají vícejazyčné, ale např. projekt ICE ukazuje druhou možnost: jednojazyčný korpus zachycující regionální variety daného jazyka. U tohoto typu korpusů velmi záleží na dodržení totožné metodologie při sestavování: podstatný není jen žánrově či časově vymezený výběr textů, ale kupříkladu i shoda v jejich délce.

Příklady srovnatelných korpusů

  • Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina).
  • Projekt ICE (International Corpus of English) shromažďuje srovnatelné korpusy regionálních variet angličtiny, např. britské (ICE-GB) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na čtrnáct (ne vždy plně) srovnatelných korpusů.
  • Korpus AFEWC obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.
  • V rámci Českého národního korpusu je k dispozici srovnatelný korpus JEROME, obsahující nepřekladovou a překladovou češtinu (85 mil. slov), a korpusy řady WaC (Web as Corpus) obsahující např. britskou angličtinu Korpus ukWaC, němčinu a další jazyky.
  • Přes rozhraní KonText je zpřístupněna i práce V. Benka, a sice srovnatelné korpusy Aranea, obsahující 1 miliardu slov v sedmi evropských jazycích.

Srovnávání textů

Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na corpora-list proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů 2) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů: Copyfind.

Velkou potíž představuje stanovení určité míry podobnosti. 3) vyhodnocovali různé metriky pro srovnávání korpusů a vytvořili metodu known-similarity corpora na základě korpusu KSC a METER.

Současnou bibliografii k tématu nabízí dizertace Daniela Baera, navrhující srovnávat tři hodnoty: obsah, strukturu a styl textu. Je nicméně jasné, že bádání v dané oblasti se velmi rychle vyvíjí a máloco je pevně dané.

Související odkazy

1)
Chlumská, L., Není korpus jako korpus: Korpusy v kontrastivní lingvistice a translatologii. Časopis pro moderní filologii 96, 2014, č. 2, s. 225
2)
Srovnejme s tím, že 20 newsgroups je oblíbený datový zdroj sestávající z dvaceti různých publicistických tematických oblastí.
3)
Věnoval se tomu i workshop SemEval Text Similarity task 2013, jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (similarity score). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou dostupná zdetorsten.zesch@uni-due.de).) Adam Kilgarriff & Tony Russell-Rose((tgr@russellrose.com