使用Apache Drill将Pentaho数据集成到MapR

Pentaho数据集成（PDI）提供了ETL功能，可简化捕获，清理和存储数据的过程。其统一一致的格式使其可访问并与最终用户和物联网技术相关。

Apache Drill是一种无模式的SQL-on-Hadoop引擎，可让您针对具有各种格式（例如JSON，CSV，Parquet，HBase等）的不同数据集运行SQL查询。通过将其与PDI集成，您可以灵活地进行操作通过Pentaho强大的PDI产品进行严肃的数据集成。 MapR文档中的Drill Tutorials页面可以帮助您熟悉Apache Drill。

步骤1

您需要管理员权限才能执行这些步骤。确保满足以下软件要求：

MapR融合数据平台（版本4.x或5.x）
Apache Drill（1.6或更高版本）以及最新的Drill JDBC驱动程序
Apache ZooKeeper（以复制模式运行）
Pentaho数据集成（5.4或更高版本）

在开始之前，还应确保PDI客户端系统可以解析Drill群集上的主机名 。

第2步

您要做的第一件事是获取Drill群集ID并构造一个自定义URL字符串。这将是我们稍后将使用的通过PDI建立JDBC连接的方法。

获取Drill集群ID并不算太糟糕：您所要做的就是转到Drill界面中的查询页面，然后运行一个SQL查询，如下所示：

从sys.boot中选择string_val，其中name ='drill.exec.cluster-id';

Apache Drill将返回您的集群ID。一旦有了它，就可以创建一个自定义URL，该URL最终看起来像这样：

jdbc：drill：zk = mapr1：5181，mapr2：5181，mapr3：5181 / drill / 任何您的集群ID

第三步

有了自定义URL字符串后，请按照以下步骤建立与PDI的连接：

打开PDI，开始新的转换，然后单击最左侧的“视图”选项卡。
展开Transformation 1 ，然后右键单击Database connections并选择New 。

在“ 数据库连接”窗口中执行以下操作：
1. 命名连接。在下面的示例中，我们使用Drill作为连接名称 。
2. 选择“ 通用数据库”作为数据库类型，选择“本机JDBC”作为访问类型。
3. 在右侧的“ 设置”下，复制并粘贴您的“ 自定义连接网址” 。
4. 输入自定义驱动程序类名称 。
5. 现在将用户名和密码字段留空。

单击测试以验证连接。您应该会看到一个连接成功窗口。

故障排除技巧

如果您的连接测试不起作用，请尝试验证“自定义URL”字符串是否正确，并确保PDI客户端的主机文件可以解析群集的专用主机名。

摘要

到此过程结束时，您应该已经使用Apache Drill将Pentaho Data Integration客户端成功连接到MapR集群。尽情享受您的数据！

翻译自: https://www.javacodegeeks.com/2017/01/connecting-pentaho-data-integration-mapr-using-apache-drill.html

使用Apache Drill将Pentaho数据集成到MapR

步骤1

第2步

第三步

故障排除技巧

摘要

相关推荐