教你学python-15-hiveUdf 的多种实现

教你学python-15-hiveUdf 的多种实现

 

我们先来了解一下什么是hive和什么是UDF

Hive:是建立在hadoop上的数据仓库基础架构,类似一种SQL解析引擎,它将SQL语句转成MapReduce,然后再Hadoop上执行。

UDF:hive的自定义函数,正常我们在写MapReduce,map和reduce需要业务函数,UDF是将MapReuce业务抽出来,让我单独完成,方便开发。

 

目前阿里的ODPS可以很好的支持python,HiveUdf 对python 的支持不是很友好,所以很少使用python版本的UDF

 

  1. Java实现

  1. UDF

教你学python-15-hiveUdf 的多种实现

  1. UDAF

教你学python-15-hiveUdf 的多种实现

教你学python-15-hiveUdf 的多种实现

  1. UDTF

教你学python-15-hiveUdf 的多种实现

 

  1. Python 实现

TRANSFORM关键字

教你学python-15-hiveUdf 的多种实现

 

  1. UDF函数的创建

  1. java

教你学python-15-hiveUdf 的多种实现

  1. Python

教你学python-15-hiveUdf 的多种实现

 

Hive的PythonUdf因为是可执行脚本,是直接向系统获取资源,不像javaUdf是通过yarm进行资源管理的,所以PythonUdf 在生产上少用

 

 

喜欢点下关注,你的关注是我写作的最大支持

 

教你学python-15-hiveUdf 的多种实现