分布式文本聚类框架

问题描述:

我需要一个分布式文本聚类框架来支持具有完整文档集的算法。像carrot2 http://project.carrot2.org/这样的应用程序在内存计算中使用一组文档,因此耗时且非常高效。如果像lingo,STC,knn等这样的文本聚类算法可以在分布式环境下运行,它们将会更快。 是否有任何框架使用开源工具,如hazelcast http://www.hazelcast.com/,或者是否有任何更快速和更高性能的特定方法?分布式文本聚类框架

Apache Mahout是你在找什么。

+0

感谢您的回答......是的,您是对的,但我想它在Haadoop上运行良好,而且我正在寻找一种更简单的解决方案,它可以在窗口上工作,形成一个集群并以分布式方式工作。 – Jagdeep

这样做的工具很少,Mahout就是其中之一。 Mahout支持3种机器学习算法,推荐,聚类和分类。 Mahout在行动 manning的书做了很好的解释。请参阅博客,该博客讨论关于如何使用Mahout and Hadoop distributed file system works?的例子,该例子更侧重于推荐引擎,但它也可以应用于群集,如mahout在行动第7章中所述。作为此的前身,我还写了一个Component architecture这些工具如何适合数据挖掘问题。

Mahout将以独立模式以及Hadoop工作。使用任何一个的决定都归结为需要挖掘的历史数据的大小。如果数据大小的数量级别是千兆字节和千兆字节,则通常使用Mahout和Hadoop。 Weka是另一个类似的开源项目。所有这些都归类为机器学习框架。我希望它有帮助。