教你学python-15-hiveUdf 的多种实现
教你学python-15-hiveUdf 的多种实现
我们先来了解一下什么是hive和什么是UDF
Hive:是建立在hadoop上的数据仓库基础架构,类似一种SQL解析引擎,它将SQL语句转成MapReduce,然后再Hadoop上执行。
UDF:hive的自定义函数,正常我们在写MapReduce,map和reduce需要业务函数,UDF是将MapReuce业务抽出来,让我单独完成,方便开发。
目前阿里的ODPS可以很好的支持python,HiveUdf 对python 的支持不是很友好,所以很少使用python版本的UDF
-
Java实现
-
UDF
-
UDAF
-
UDTF
-
Python 实现
TRANSFORM关键字
-
UDF函数的创建
-
java
-
Python
Hive的PythonUdf因为是可执行脚本,是直接向系统获取资源,不像javaUdf是通过yarm进行资源管理的,所以PythonUdf 在生产上少用
喜欢点下关注,你的关注是我写作的最大支持