Obsah

Srovnatelné korpusy

Srovnatelné (comparable) korpusy se liší od korpusů paralelních tím, že neobsahují doslovné překlady textů, ale „texty vybrané podle týchž kritérií (žánru, zaměření, délky apod.) v různých jazycích (příp. v různých varietách jednoho jazyka)“1). Srovnatelné korpusy bývají vícejazyčné, ale např. projekt ICE ukazuje druhou možnost: jednojazyčný korpus zachycující regionální variety daného jazyka. U tohoto typu korpusů velmi záleží na dodržení totožné metodologie při sestavování: podstatný není jen žánrově či časově vymezený výběr textů, ale kupříkladu i shoda v jejich délce.

Příklady srovnatelných korpusů

Srovnávání textů

Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na corpora-list proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů 2) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů: Copyfind.

Velkou potíž představuje stanovení určité míry podobnosti.3) Adam Kilgarriff & Tony Russell-Rose4) vyhodnocovali různé metriky pro srovnávání korpusů a vytvořili metodu known-similarity corpora na základě korpusu KSC a METER.

Současnou bibliografii k tématu nabízí dizertace Daniela Baera, navrhující srovnávat tři hodnoty: obsah, strukturu a styl textu. Je nicméně jasné, že bádání v dané oblasti se velmi rychle vyvíjí a máloco je pevně dané.

Související odkazy

1)
Chlumská, L., Není korpus jako korpus: Korpusy v kontrastivní lingvistice a translatologii. Časopis pro moderní filologii 96, 2014, č. 2, s. 225
2)
Srovnejme s tím, že 20 newsgroups je oblíbený datový zdroj sestávající z dvaceti různých publicistických tematických oblastí.
3)
Věnoval se tomu i workshop SemEval Text Similarity task 2013, jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (similarity score). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou dostupná zdetorsten.zesch@uni-due.de).