Srovnatelné korpusy

Srovnatelné (comparable) korpusy se liší od korpusů paralelních tím, že neobsahují doslovné překlady textů, ale „texty vybrané podle týchž kritérií (žánru, zaměření, délky apod.) v různých jazycích (příp. v různých varietách jednoho jazyka)“¹⁾. Srovnatelné korpusy bývají vícejazyčné, ale např. projekt ICE ukazuje druhou možnost: jednojazyčný korpus zachycující regionální variety daného jazyka. U tohoto typu korpusů velmi záleží na dodržení totožné metodologie při sestavování: podstatný není jen žánrově či časově vymezený výběr textů, ale kupříkladu i shoda v jejich délce.

Příklady srovnatelných korpusů

Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina).
Projekt ICE (International Corpus of English) shromážďuje srovnatelné korpusy regionálních variet angličtiny, např. britské (ICE-GB) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na čtrnáct (ne vždy plně) srovnatelných korpusů.
Korpus AFEWC obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.

Srovnávání textů

Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na corpora-list proběhla diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Ivelina Nikolova, která ji vyvolala, 4. 3. 2014 shrnula odpovědi takto:

K tématu podobnosti existuje poměrně málo jiných dat než těch zaměřených na úroveň vět.

Zdroje:

1. Michael D. Lee, Brandon Pincombe, and Matthew Welsh. 2005. An empirical evaluation of models of text document similarity. In Proceedings of the 27th Annual Conference of the Cognitive Science Society, pages 1254–1259, Mahwah, NJ. Erlbaum.

Jde o podobnosti mezi texty o velikosti odstavce, stanovené lidmi. ²⁾

2. Linda Bawcom ³⁾ v souvislosti se svým korpusem článků vztahujících se k tématu tsunami upozorňuje, že: 1) řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů 2) použila volně dostupný bezplatný program k identifikování podobných textů (běžně používaný na odhalování plagiátů): Copyfind.

3. SemEval Text Similarity task 2013 - Hlavní zadání: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (similarity score). - Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou dostupná zde⁴⁾.

4. 20 newsgroups Oblíbený datový zdroj sestávající z dvaceti různých publicistických tematických oblastí.

5. Publicistický korpus uvolněný Reuters je k dispozici po zaslání podepsaných souhlasů.

6. Adam Kilgarriff & Tony Russell-Rose⁵⁾ vyhodnocovali různé metriky pro srovnávání korpusů a vytvořili metodu known-similarity corpora na základě korpusu KSC a METER.

7. Právo EU - korpus JRC⁶⁾ - JEX Indexer je využívaný k indexaci dokumentů pomocí klíčových slov.

8. Současnou bibliografii k tématu nabízí dizertace Daniela Baera, navrhující srovnávat tři hodnoty: obsah, strukturu a styl textu.