Srovnatelné korpusy

Srovnatelné (comparable) korpusy se liší od korpusů paralelních tím, že neobsahují doslovné překlady textů, ale „texty vybrané podle týchž kritérií (žánru, zaměření, délky apod.) v různých jazycích (příp. v různých varietách jednoho jazyka)“¹⁾. Srovnatelné korpusy bývají vícejazyčné, ale např. projekt ICE ukazuje druhou možnost: jednojazyčný korpus zachycující regionální variety daného jazyka. U tohoto typu korpusů velmi záleží na dodržení totožné metodologie při sestavování: podstatný není jen žánrově či časově vymezený výběr textů, ale kupříkladu i shoda v jejich délce.

Příklady srovnatelných korpusů

Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina).
Projekt ICE (International Corpus of English) shromážďuje srovnatelné korpusy regionálních variet angličtiny, např. britské (ICE-GB) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na čtrnáct (ne vždy plně) srovnatelných korpusů.
Korpus AFEWC obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.

Srovnávání textů

Na corpora-list proběhla diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Ivelina Nikolova, která ji vyvolala, 4. 3. 2014 shrnula odpovědi takto:

K tématu podobnosti existuje poměrně málo jiných dat než těch zaměřených na úroveň vět.

Zdroje:

1. Michael D. Lee, Brandon Pincombe, and Matthew Welsh. 2005. An empirical evaluation of models of text document similarity. In Proceedings of the 27th Annual Conference of the Cognitive Science Society, pages 1254–1259, Mahwah, NJ. Erlbaum.

Jde o podobnosti mezi texty o velikosti odstavce, stanovené lidmi. ²⁾

2. Linda Bawcom ³⁾ v souvislosti se svým korpusem článků vztahujících se k tématu tsunami upozorňuje, že: 1) řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů 2) použila volně dostupný bezplatný program k identifikování podobných textů (běžně používaný na odhalování plagiátů): Copyfind.

3. SemEval Text Similarity task 2013 - Hlavní zadání: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (similarity score). - Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou dostupná zde, kontakt: Zesch, Torsten⁴⁾.

4. 20 newsgroups

The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. To the best of my knowledge, it was originally collected by Ken Lang, probably for his Newsweeder: Learning to filter netnews paper, though he does not explicitly mention this collection. The 20 newsgroups collection has become a popular data set for experiments in text applications of machine learning techniques, such as text classification and text clustering.

5. Reuters corpus http://about.reuters.com/researchandstandards/corpus/statistics/index.asp

6. Adam Kilgarriff & Tony Russell-Rose wrote a paper evaluating various metrics for comparing corpora, and as part of that process created a set of 'known similarity corpora' which included various newspaper sources. It's documented here: Measures for corpus similarity and homogeneity http://aclweb.org/anthology//W/W98/W98-1506.pdf The documents are here: ftp://ftp.itri.brighton.ac.uk/KSC The METER Corpus is here: http://nlp.shef.ac.uk/meter/

Contacts: Tony Russell-Rose tgr@russellrose.com, Paul D Clough p.d.clough@sheffield.ac.uk

7. JRC resources - JEX corpus, which accompanies the JEC software (http://ipsc.jrc.ec.europa.eu/index.php?id=60) - The news clusters downloaded and annotated for multi-document summarisation (see at the bottom of the page http://ipsc.jrc.ec.europa.eu/?id=61). - NewsExplorer news clusters (e.g. http://emm.newsexplorer.eu/NewsExplorer/home/en/latest.html).

Contacts: Ralf Steinberger ralf.steinberger@jrc.ec.europa.eu

8. Recent publications on the topic Daniel Baer's PhD Thesis: http://tuprints.ulb.tu-darmstadt.de/3641/1/Thesis_Screen.pdf