需要帮助为恶意网址的数据集创建mapreduce
问题描述:
我正在研究我的最后一年项目,我们必须创建一个应用程序来检测恶意网址。我们必须在所有网址之间找到模式。我们有一个很大的数据集,需要很长时间才能将网址与其他网址相匹配。需要帮助为恶意网址的数据集创建mapreduce
现在我们正在考虑将项目移到hadoop上,但我们没有弄清楚如何为我们的java项目和数据集制作mapreduce并将其移至hadoop。
请帮助我们为我们的程序和数据集创建mapreduce。 任何帮助将不胜感激。
答
MapReduce是而不是适合配对比较。
这意味着以同样的方式“映射”所有对象。要在严格的MR中处理对,您将不得不大量复制您的数据。这不是一个好主意,因为数据传输会导致性能下降。
成对比较问题一般不能很好地扩展。
如果您确实想要进行扩展,请考虑一种巧妙的方式,避免将所有网址与一些好的过滤器进行比较。也许你可以用MapReduce做这个过滤(并处理剩余的对)。
如果您还未开始任何操作,请尝试使用Apache Spark而不是MapReduce。在那里有一些很棒的教程会告诉你如何开始。 – philantrovert
与mapreduce相比,spark的性能如何?好吗? –
我想说它好多了。 – philantrovert