搜狗日志查询分析 (MapReduce+Hive综合实验)
下载搜狗实验室查询日志,发现编码是UTF-8。
将SogouQ文件夹下的文件从GBK编码转为UTF-8编码,结果存到SogouQ_UTF8中,其下的文件目录不变:
shell命令:find SogouQ -type d -exec mkdir -p SogouQ_UTF-8{} \;
find SogouQ -type f -exec iconv -f GBK -t UTF-8 {} -o SogouQ_UTF-8{} \;
自定义类实现将分割数据用逗号相连输出
map方法:正则表达式\s+匹配一个或多个分隔符、空格,不满足五个数据的不输出。
Hive创建表
Hive导入数据
Hive查找数据