在散装物品中发现抄袭

问题描述：

我有20,000本硕士文章集，我每天会得到约400,000篇一两页的文章。现在，我试图看看这400k篇文章中的每篇文章是否是我收集的主要文章的副本或修改版本（60％以上的剽窃阈值对我来说都不错）我应该使用哪些算法和技术以非常有效和及时的方式解决问题。谢谢在散装物品中发现抄袭

那么[这里是一个相关的论文]（http://www.dcs.gla.ac.uk/publications/PAPERS/7444/TR-2004-164.pdf）不知道它是否对你有用。 –

答

指纹的文章（即智能散列他们基于词的频率），然后寻找指纹之间的统计连接。然后，如果对某些数据集有预感，请对这些数据集上的匹配字符串进行蛮力搜索。

不错的答案：+1，但在暴力错字，请解决它。 –

你推荐使用哪种算法进行散列？你是指什么样的统计联系？是余弦相似性好主意？ – sobhan

好吧，一个简单的散列就是按照长度排序每个文档中的单词，然后忽略所有常用单词（或大多数单词）。然后可能找出一些不太常见的单词之间的单词距离。这会给你一个粗略的指纹/散列（属性列表）。然后你需要一种方法来查看一个散列是否与另一个散列相似。并排两个哈希。看看同意的大字距离的数量，并给它一些权重分数，并为每个属性做这些并将分数加在一起。 ...明白了吗？ –

在散装物品中发现抄袭

相关推荐