hadoop平台使用以及hive命令

本篇文章记录了自己来公司之后的一些操作,因为公司有保密要求,故所以涉及到密码之类的都会屏蔽掉。我们团队在公司负责的业务就是推荐广告,计算广告的ctr和cvr。处理的数据主要是服务器端生成的日志,按照类别主要有六个日志,ct_show,action,click,down,land,inview,其中ct_show包含了我们所有的信息。由于log的数据量很大,所以我们的操作都是在hadoop平台上进行的。我们在自己的电脑先登录到hadoop的开发机上,然后用开发机进行数据处理工作,目前有两种方式可以远程登录另一终端,在windows上面可以用ssh,在linux上面,自己配置脚本,输入终端机的ip,mima,端口或者是终端名字和密码。连接上终端之后就可以进行数据处理工作了。

hls-----可以显示所有hdfs上面的文件

hls -open可以显示具体文件夹上面的文件

hget可以下载具体的文件

其中使用ssh链接的话可以穿上去(rz),取下来(sz)

scp可以在linux下面进行文件传输

一般在vim打开文件编辑sh脚本的话,可以nohup ./ ---.sh & 来让程序在后端执行,然后可以用tail -f ----nohup.out来查看运行情况。

其中脚本中一般都包含了带有jar的文件,里面有文件的路径,和输入、输出路径。

其中maven这个一定要下载好,可以编译成jar包。

hive是一个在hdfs之上的框架,可以进行类似于sql的语句来运行map-reduce代码,比如show databases;use .....;show tables;desc table;selecct count (*) from 。。。;

下面给大家看一些截图,自己最近也是在hadoop上面处于摸索阶段,如果有问题欢迎大家和我沟通。

hadoop平台使用以及hive命令hadoop平台使用以及hive命令

之后想自己写map、reduce代码的话要好好学学java,scala,sh,python了,这些语言都挺管用的。

下面就是ctr和cvr了,这个都是用的是之前写的代码,用机器学习的算法进行设计,因为涉及到公司保密协议,这里就不一一赘述了。网上的sklearn的算法很全的,里面有分类有野回归,如果从事图像处理领域的话可以多看看深度神经网络,卷积神经网络,网上有一个70行java代码实现深度神经网络就写的挺好的可以多看看。不过公司里面一般直接引入库就好了,不用自己去写。以后如果有ctr和cvr方面的同事可以多交流交流。我在上海wifi万能钥匙公司。