Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:srovnatelny [2014/11/24 01:37] – olgarichterova | pojmy:srovnatelny [2021/02/18 07:13] (aktuální) – [Srovnávání textů] dominikakovarikova |
---|
| |
===== Příklady srovnatelných korpusů ===== | ===== Příklady srovnatelných korpusů ===== |
| |
* Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina). | * Korpusy sestavené podle vzoru prvního Brownova korpusu standardní americké angličtiny, např. LOB Corpus (britská angličtina) a Kolhapur Corpus (indická angličtina). |
* Projekt ICE (International Corpus of English) shromážďuje srovnatelné korpusy regionálních variet angličtiny, např. britské ([[http://www.ucl.ac.uk/english-usage/projects/ice-gb/index.htm|ICE-GB]]) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na [[http://ice-corpora.net/ice/|čtrnáct (ne vždy plně) srovnatelných korpusů]]. | * Projekt ICE (International Corpus of English) shromažďuje srovnatelné korpusy regionálních variet angličtiny, např. britské ([[http://www.ucl.ac.uk/english-usage/projects/ice-gb/index.htm|ICE-GB]]) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na [[http://ice-corpora.net/ice/|čtrnáct (ne vždy plně) srovnatelných korpusů]]. |
* Korpus [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie. | * Korpus [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie. |
| * V rámci Českého národního korpusu je k dispozici srovnatelný korpus [[cnk:jerome|JEROME]], obsahující nepřekladovou a překladovou češtinu (85 mil. slov), a korpusy řady WaC (Web as Corpus) obsahující např. britskou angličtinu [[cnk:ukwac|Korpus ukWaC]], [[cnk:dewac|němčinu]] a další jazyky. |
| * Přes rozhraní [[pojmy:korpusovy_manazer#rozhrani_kontext|KonText]] je zpřístupněna i práce V. Benka, a sice srovnatelné [[cnk:aranea|korpusy Aranea]], obsahující 1 miliardu slov v sedmi evropských jazycích. |
| |
===== Srovnávání textů ===== | ===== Srovnávání textů ===== |
| |
Na corpora-list proběhla diskuze na téma vyhodnocování podobnosti textů (document similarity metrics). Ivelina Nikolova, která ji vyvolala, 4. 3. 2014 shrnula odpovědi takto: | Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na ''corpora-list'' proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (//document similarity metrics//). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů ((Srovnejme s tím, že [[http://qwone.com/~jason/20Newsgroups/|20 newsgroups]] je oblíbený datový zdroj sestávající z dvaceti různých publicistických tematických oblastí.)) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů: |
| |
K tématu podobnosti existuje poměrně málo jiných dat než těch zaměřených na úroveň vět. | |
| |
__Zdroje__: | |
| |
1. Michael D. Lee, Brandon Pincombe, and Matthew | |
Welsh. 2005. An empirical evaluation of models of | |
text document similarity. In Proceedings of the 27th | |
Annual Conference of the Cognitive Science Society, | |
pages 1254--1259, Mahwah, NJ. Erlbaum. | |
| |
Jde o podobnosti mezi texty o velikosti odstavce, stanovené lidmi. ((Přístup k datům lze získat od Michaela Lee, <mdlee@uci.edu>)) | |
| |
2. Linda Bawcom ((<linda.bawcom@sbcglobal.net>)) v souvislosti se svým korpusem článků vztahujících se k tématu tsunami upozorňuje, že: | |
1) řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů | |
2) použila volně dostupný bezplatný program k identifikování podobných textů (běžně používaný na odhalování plagiátů): | |
[[http://plagiarism.bloomfieldmedia.com/z-wordpress/2012/03/05/new-release-wcopyfind-4-1-1/|Copyfind]]. | [[http://plagiarism.bloomfieldmedia.com/z-wordpress/2012/03/05/new-release-wcopyfind-4-1-1/|Copyfind]]. |
| |
| Velkou potíž představuje stanovení určité míry podobnosti.((Věnoval se tomu i workshop |
| [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=47&Itemid=54|SemEval Text Similarity task 2013]], jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (//similarity score//). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=49&Itemid=56|dostupná zde]]<torsten.zesch@uni-due.de>).)) Adam Kilgarriff & Tony Russell-Rose((<tgr@russellrose.com>)) [[http://aclweb.org/anthology//W/W98/W98-1506.pdf| vyhodnocovali různé metriky pro srovnávání korpusů]] |
| a vytvořili metodu //known-similarity corpora// na základě korpusu [[ftp://ftp.itri.brighton.ac.uk/KSC|KSC]] a [[http://nlp.shef.ac.uk/meter/|METER]]. |
| |
3. [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=47&Itemid=54|SemEval Text Similarity task 2013]] | Současnou bibliografii k tématu nabízí [[http://tuprints.ulb.tu-darmstadt.de/3641/1/Thesis_Screen.pdf|dizertace Daniela Baera]], navrhující srovnávat tři hodnoty: obsah, strukturu a styl textu. Je nicméně jasné, že bádání v dané oblasti se velmi rychle vyvíjí a máloco je pevně dané. |
- Hlavní zadání: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (similarity score). | |
- Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. | |
Data jsou [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=49&Itemid=56|dostupná zde]], kontakt: Zesch, Torsten((<torsten.zesch@uni-due.de>)). | |
| |
4. [[http://qwone.com/~jason/20Newsgroups/|20 newsgroups]] | |
| |
| |
The 20 Newsgroups data set is a collection of approximately 20,000 | |
newsgroup documents, partitioned (nearly) evenly across 20 different | |
newsgroups. To the best of my knowledge, it was originally collected by | |
Ken Lang, probably for his Newsweeder: Learning to filter netnews paper, | |
though he does not explicitly mention this collection. The 20 newsgroups | |
collection has become a popular data set for experiments in text | |
applications of machine learning techniques, such as text classification | |
and text clustering. | |
| |
5. Reuters corpus | |
http://about.reuters.com/researchandstandards/corpus/statistics/index.asp | |
| |
6. Adam Kilgarriff & Tony Russell-Rose wrote a paper evaluating various | |
metrics for comparing corpora, and as part of that process created a set | |
of 'known similarity corpora' which included various newspaper sources. | |
It's documented here: | |
Measures for corpus similarity and homogeneity | |
http://aclweb.org/anthology//W/W98/W98-1506.pdf | |
The documents are here: ftp://ftp.itri.brighton.ac.uk/KSC | |
The METER Corpus is here: http://nlp.shef.ac.uk/meter/ | |
| |
Contacts: Tony Russell-Rose <tgr@russellrose.com>, Paul D Clough | |
<p.d.clough@sheffield.ac.uk> | |
| |
7. JRC resources | |
- JEX corpus, which accompanies the JEC software | |
(http://ipsc.jrc.ec.europa.eu/index.php?id=60) | |
- The news clusters downloaded and annotated for multi-document | |
summarisation (see at the bottom of the page | |
http://ipsc.jrc.ec.europa.eu/?id=61). | |
- NewsExplorer news clusters (e.g. | |
http://emm.newsexplorer.eu/NewsExplorer/home/en/latest.html). | |
| |
Contacts: Ralf Steinberger <ralf.steinberger@jrc.ec.europa.eu> | |
| |
8. Recent publications on the topic | |
Daniel Baer's PhD Thesis: | |
http://tuprints.ulb.tu-darmstadt.de/3641/1/Thesis_Screen.pdf | |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 50%> | <WRAP round box 51%> |
[[pojmy:korpusy|Rozmanité korpusy]] • [[pojmy:paralelni|Paralelní korpus]] • [[https://wiki.korpus.cz/doku.php/pojmy:korpusy#vyber_specificky_zamerenych_korpusu|Specifické korpusy]] | [[pojmy:korpusy|Korpusy u nás a ve světě]] • [[pojmy:paralelni|Paralelní korpus]] • [[https://wiki.korpus.cz/doku.php/pojmy:korpusy#vyber_specificky_zamerenych_korpusu|Specifické korpusy]] • |
| [[cnk:struktura|Struktura Českého národního korpusu]] |
</WRAP> | </WRAP> |