AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:srovnatelny [2015/07/13 12:14] – [Příklady srovnatelných korpusů] michalskrabalpojmy:srovnatelny [2021/02/18 07:13] (aktuální) – [Srovnávání textů] dominikakovarikova
Řádek 10: Řádek 10:
   * Projekt ICE (International Corpus of English) shromažďuje srovnatelné korpusy regionálních variet angličtiny, např. britské ([[http://www.ucl.ac.uk/english-usage/projects/ice-gb/index.htm|ICE-GB]]) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na [[http://ice-corpora.net/ice/|čtrnáct (ne vždy plně) srovnatelných korpusů]].   * Projekt ICE (International Corpus of English) shromažďuje srovnatelné korpusy regionálních variet angličtiny, např. britské ([[http://www.ucl.ac.uk/english-usage/projects/ice-gb/index.htm|ICE-GB]]) či jamajské nebo irské. Oficiální stránka projektu v současnosti odkazuje na [[http://ice-corpora.net/ice/|čtrnáct (ne vždy plně) srovnatelných korpusů]].
   * Korpus [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.   * Korpus [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] obsahuje texty v angličtině, francouzštině a arabštině, je založený na textech z Wikipedie.
-  * V rámci Českého národního korpusu je k dispozici srovnatelný korpus [[cnk:jerome|JEROME]], obsahující původní a překladovou češtinu (85 mil. slov) a korpusy řady WaC (Web as Corpus) obsahující např. britskou angličtinu [[cnk:ukwac|Korpus ukWaC]], [[cnk:dewac|němčinu]] a další jazyky.+  * V rámci Českého národního korpusu je k dispozici srovnatelný korpus [[cnk:jerome|JEROME]], obsahující nepřekladovou a překladovou češtinu (85 mil. slov)a korpusy řady WaC (Web as Corpus) obsahující např. britskou angličtinu [[cnk:ukwac|Korpus ukWaC]], [[cnk:dewac|němčinu]] a další jazyky.
   * Přes rozhraní [[pojmy:korpusovy_manazer#rozhrani_kontext|KonText]] je zpřístupněna i práce V. Benka, a sice srovnatelné [[cnk:aranea|korpusy Aranea]], obsahující 1 miliardu slov v sedmi evropských jazycích.   * Přes rozhraní [[pojmy:korpusovy_manazer#rozhrani_kontext|KonText]] je zpřístupněna i práce V. Benka, a sice srovnatelné [[cnk:aranea|korpusy Aranea]], obsahující 1 miliardu slov v sedmi evropských jazycích.
  
Řádek 18: Řádek 18:
 [[http://plagiarism.bloomfieldmedia.com/z-wordpress/2012/03/05/new-release-wcopyfind-4-1-1/|Copyfind]]. [[http://plagiarism.bloomfieldmedia.com/z-wordpress/2012/03/05/new-release-wcopyfind-4-1-1/|Copyfind]].
  
-Velkou potíž představuje stanovení určité míry podobnosti. ((Věnoval se tomu i workshop  +Velkou potíž představuje stanovení určité míry podobnosti.((Věnoval se tomu i workshop  
-[[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=47&Itemid=54|SemEval Text Similarity task 2013]], jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (//similarity score//). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=49&Itemid=56|dostupná zde]]<torsten.zesch@uni-due.de>).) Adam Kilgarriff & Tony Russell-Rose((<tgr@russellrose.com>)) [[http://aclweb.org/anthology//W/W98/W98-1506.pdf|vyhodnocovali různé metriky pro srovnávání korpusů]]+[[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=47&Itemid=54|SemEval Text Similarity task 2013]], jehož hlavní zadání stanovilo: Mějme dvě věty, s1 a s2. Účastníci kvantifikují, jak podobné si s1 a s2 jsou, čímž vytvoří míru podobnosti (//similarity score//). Mezi druhy podobnosti, na něž se měli zaměřit, bylo: místo, autor, účastníci dění, čas, události nebo akce, téma, popis. Data jsou [[http://ixa2.si.ehu.es/sts/index.php?option=com_content&view=article&id=49&Itemid=56|dostupná zde]]<torsten.zesch@uni-due.de>).)) Adam Kilgarriff & Tony Russell-Rose((<tgr@russellrose.com>)) [[http://aclweb.org/anthology//W/W98/W98-1506.pdf| vyhodnocovali různé metriky pro srovnávání korpusů]]
 a vytvořili metodu //known-similarity corpora// na základě korpusu [[ftp://ftp.itri.brighton.ac.uk/KSC|KSC]] a [[http://nlp.shef.ac.uk/meter/|METER]]. a vytvořili metodu //known-similarity corpora// na základě korpusu [[ftp://ftp.itri.brighton.ac.uk/KSC|KSC]] a [[http://nlp.shef.ac.uk/meter/|METER]].
  
Řádek 25: Řádek 25:
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 50%>+<WRAP round box 51%>
 [[pojmy:korpusy|Korpusy u nás a ve světě]] • [[pojmy:paralelni|Paralelní korpus]] • [[https://wiki.korpus.cz/doku.php/pojmy:korpusy#vyber_specificky_zamerenych_korpusu|Specifické korpusy]]  •  [[pojmy:korpusy|Korpusy u nás a ve světě]] • [[pojmy:paralelni|Paralelní korpus]] • [[https://wiki.korpus.cz/doku.php/pojmy:korpusy#vyber_specificky_zamerenych_korpusu|Specifické korpusy]]  • 
 [[cnk:struktura|Struktura Českého národního korpusu]] [[cnk:struktura|Struktura Českého národního korpusu]]
 </WRAP> </WRAP>