需要帮助为恶意网址的数据集创建mapreduce

问题描述:

我正在研究我的最后一年项目,我们必须创建一个应用程序来检测恶意网址。我们必须在所有网址之间找到模式。我们有一个很大的数据集,需要很长时间才能将网址与其他网址相匹配。需要帮助为恶意网址的数据集创建mapreduce

现在我们正在考虑将项目移到hadoop上,但我们没有弄清楚如何为我们的java项目和数据集制作mapreduce并将其移至hadoop。

请帮助我们为我们的程序和数据集创建mapreduce。 任何帮助将不胜感激。

+0

如果您还未开始任何操作,请尝试使用Apache Spark而不是MapReduce。在那里有一些很棒的教程会告诉你如何开始。 – philantrovert

+0

与mapreduce相比,spark的性能如何?好吗? –

+0

我想说它好多了。 – philantrovert

MapReduce是而不是适合配对比较。

这意味着以同样的方式“映射”所有对象。要在严格的MR中处理对,您将不得不大量复制您的数据。这不是一个好主意,因为数据传输会导致性能下降。

成对比较问题一般不能很好地扩展。

如果您确实想要进行扩展,请考虑一种巧妙的方式,避免将所有网址与一些好的过滤器进行比较。也许你可以用MapReduce做这个过滤(并处理剩余的对)。