在散装物品中发现抄袭
我有20,000本硕士文章集,我每天会得到约400,000篇一两页的文章。现在,我试图看看这400k篇文章中的每篇文章是否是我收集的主要文章的副本或修改版本(60%以上的剽窃阈值对我来说都不错) 我应该使用哪些算法和技术以非常有效和及时的方式解决问题。 谢谢在散装物品中发现抄袭
指纹的文章(即智能散列他们基于词的频率),然后寻找指纹之间的统计连接。然后,如果对某些数据集有预感,请对这些数据集上的匹配字符串进行蛮力搜索。
不错的答案:+1,但在暴力错字,请解决它。 –
你推荐使用哪种算法进行散列? 你是指什么样的统计联系? 是余弦相似性好主意? – sobhan
好吧,一个简单的散列就是按照长度排序每个文档中的单词,然后忽略所有常用单词(或大多数单词)。然后可能找出一些不太常见的单词之间的单词距离。这会给你一个粗略的指纹/散列(属性列表)。然后你需要一种方法来查看一个散列是否与另一个散列相似。并排两个哈希。看看同意的大字距离的数量,并给它一些权重分数,并为每个属性做这些并将分数加在一起。 ...明白了吗? –
那么[这里是一个相关的论文](http://www.dcs.gla.ac.uk/publications/PAPERS/7444/TR-2004-164.pdf)不知道它是否对你有用。 –