从hadoop hdfs数据搜索
问题描述:
我从JSON格式的在线源提取数据,并通过Apache Flume将其存储到Hdfs中。现在它会像Hadoop一样创建多个文件。现在我想从这些数据(从所有这些文件中)搜索一些东西,并获得与其相关的完整信息。解决办法是什么?从hadoop hdfs数据搜索
答
您可以开发自己的脚本,以便使用MapReduce或Spark在hdfs中进行搜索。你有另一种解决方案,你可以使用配置单元和或猪。 Pigg指南:http://archive.cloudera.com/cdh/3/pig/tutorial.html 蜂巢指南:https://cwiki.apache.org/confluence/display/Hive/LanguageManual