使用Apache Drill将Pentaho数据集成到MapR
Pentaho数据集成(PDI)提供了ETL功能,可简化捕获,清理和存储数据的过程。 其统一一致的格式使其可访问并与最终用户和物联网技术相关。
Apache Drill是一种无模式的SQL-on-Hadoop引擎,可让您针对具有各种格式(例如JSON,CSV,Parquet,HBase等)的不同数据集运行SQL查询。通过将其与PDI集成,您可以灵活地进行操作通过Pentaho强大的PDI产品进行严肃的数据集成。 MapR文档中的Drill Tutorials页面可以帮助您熟悉Apache Drill。
步骤1
您需要管理员权限才能执行这些步骤。 确保满足以下软件要求:
- MapR融合数据平台(版本4.x或5.x)
- Apache Drill(1.6或更高版本)以及最新的Drill JDBC驱动程序
-
通过MapR提供对Apache Drill驱动程序的支持。
- Apache ZooKeeper(以复制模式运行)
- Pentaho数据集成 (5.4或更高版本)
在开始之前,还应确保PDI客户端系统可以解析Drill群集上的主机名 。
第2步
您要做的第一件事是获取Drill群集ID并构造一个自定义URL字符串。 这将是我们稍后将使用的通过PDI建立JDBC连接的方法。
- 获取Drill集群ID并不算太糟糕:您所要做的就是转到Drill界面中的查询页面,然后运行一个SQL查询,如下所示:
从sys.boot中选择string_val,其中name ='drill.exec.cluster-id';
- Apache Drill将返回您的集群ID。 一旦有了它,就可以创建一个自定义URL,该URL最终看起来像这样:
jdbc:drill:zk = mapr1:5181,mapr2:5181,mapr3:5181 / drill / 任何您的集群ID
第三步
有了自定义URL字符串后,请按照以下步骤建立与PDI的连接:
- 打开PDI,开始新的转换,然后单击最左侧的“视图”选项卡。
- 展开Transformation 1 ,然后右键单击Database connections并选择New 。
- 在“ 数据库连接”窗口中执行以下操作:
- 命名连接。 在下面的示例中,我们使用Drill作为连接名称 。
- 选择“ 通用数据库”作为数据库类型,选择“本机JDBC”作为访问类型。
- 在右侧的“ 设置”下,复制并粘贴您的“ 自定义连接网址” 。
- 输入自定义驱动程序类名称 。
- 现在将用户名和密码字段留空。
- 单击测试以验证连接。 您应该会看到一个连接成功窗口。
故障排除技巧
如果您的连接测试不起作用,请尝试验证“自定义URL”字符串是否正确,并确保PDI客户端的主机文件可以解析群集的专用主机名。
摘要
到此过程结束时,您应该已经使用Apache Drill将Pentaho Data Integration客户端成功连接到MapR集群。 尽情享受您的数据!