AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:srovnatelny [2021/02/18 07:11] – [Srovnávání textů] dominikakovarikovapojmy:srovnatelny [2021/02/18 07:13] (aktuální) – [Srovnávání textů] dominikakovarikova
Řádek 17: Řádek 17:
 Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na ''corpora-list'' proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (//document similarity metrics//). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů ((Srovnejme s tím, že [[http://qwone.com/~jason/20Newsgroups/|20 newsgroups]] je oblíbený datový zdroj sestávající z dvaceti různých publicistických tematických oblastí.)) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů: Po vytvoření srovnatelného korpusu by bylo dobré moci ověřit, do jaké míry si zařazené dokumenty skutečně odpovídají. Na ''corpora-list'' proběhla v únoru a březnu 2014 diskuze na téma vyhodnocování podobnosti textů (//document similarity metrics//). Zaznělo, že řada případů identifikované podobnosti se zakládá na tom, že noviny vycházejí z týchž agenturních textů ((Srovnejme s tím, že [[http://qwone.com/~jason/20Newsgroups/|20 newsgroups]] je oblíbený datový zdroj sestávající z dvaceti různých publicistických tematických oblastí.)) i že k identifikování podobných textů lze využít třeba nějaký volně dostupný bezplatný program běžně používaný na odhalování plagiátů:
 [[http://plagiarism.bloomfieldmedia.com/z-wordpress/2012/03/05/new-release-wcopyfind-4-1-1/|Copyfind]]. [[http://plagiarism.bloomfieldmedia.com/z-wordpress/2012/03/05/new-release-wcopyfind-4-1-1/|Copyfind]].
-Velkou potíž představuje stanovení určité míry podobnosti. ((Věnoval se tomu i workshop  + 
-[[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=47&Itemid=54|SemEval Text Similarity task 2013]], jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (//similarity score//). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=49&Itemid=56|dostupná zde]]<torsten.zesch@uni-due.de>).) Adam Kilgarriff & Tony Russell-Rose((<tgr@russellrose.com>)) [[http://aclweb.org/anthology//W/W98/W98-1506.pdf| vyhodnocovali různé metriky pro srovnávání korpusů]]+Velkou potíž představuje stanovení určité míry podobnosti.((Věnoval se tomu i workshop  
 +[[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=47&Itemid=54|SemEval Text Similarity task 2013]], jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (//similarity score//). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=49&Itemid=56|dostupná zde]]<torsten.zesch@uni-due.de>).)) Adam Kilgarriff & Tony Russell-Rose((<tgr@russellrose.com>)) [[http://aclweb.org/anthology//W/W98/W98-1506.pdf| vyhodnocovali různé metriky pro srovnávání korpusů]]
 a vytvořili metodu //known-similarity corpora// na základě korpusu [[ftp://ftp.itri.brighton.ac.uk/KSC|KSC]] a [[http://nlp.shef.ac.uk/meter/|METER]]. a vytvořili metodu //known-similarity corpora// na základě korpusu [[ftp://ftp.itri.brighton.ac.uk/KSC|KSC]] a [[http://nlp.shef.ac.uk/meter/|METER]].