【大数据学习笔记-2】将阿里云上的RDS数据库复制到华为云hive数据库
【学习背景】
近期在帮我一个客户做电商大数据分析平台,需要从阿里云上将RDS数据库复制到华为云,然后利用华为云的大数据服务MRS进行分析。本文主要体验华为云的数据迁移服务CDM将阿里云RDS的一个数据库整体复制到华为云大数据平台的Hive数据库。
【关键思路】
1、华为云购买测试版本的数据迁移服务CDM,并分配一个公网IP和带宽。
2、阿里云RDS上添加到白名单,并分配一个只读权限的账户。
3、华为云创建大数据服务MRS,配置低配置即可。
4、在CDM迁移服务中,创建2个数据连接通道,分别连接到阿里云的RDS数据库和华为云的MRS hive数据库。
5、在CDM上启动数据迁移,将阿里云的数据库复制到华为云。
【前提条件】
1、阿里云上已部署了RDS数据库,并且有测试数据。
【操作步骤】
1、华为云购买测试(POC)版本的数据迁移服务CDM,并分配一个公网IP和带宽。
选择华北-北京一区,POC版本。
在云迁移服务集群CDM的控制台中,绑定一个公网IP。如果没有购买IP,需要先购买。记录好该IP,后续需要在阿里云上添加到白名单才能访问。
2、阿里云RDS的控制台中,查看RDS实例详情并添加CDM的公网地址到白名单,并分配一个只读权限的账户。
在RDS实例中,为待复制的数据库创建一个只读权限的root账号。
3、华为云创建大数据服务MRS,配置低配置即可。
登录华为云官网www.huaweicloud.com,控制台-服务列表-EI企业智能-MapReduce服务,购买集群。 作为功能测试环境,将默认配置修改最低配置即可。
功能测试选择的是最低配置,因此hadoop初始化创建节点比较慢,大概花了10分钟。
4、在CDM迁移服务控制台-作业管理中,创建2个数据连接通道,分别连接到阿里云的RDS数据库和华为云的MRS hive数据库。
5、创建一个迁移任务,将阿里云RDS数据库复制到华为云MRS集群中的Hive节点上去。
6、等待迁移完成,在mrs的文件路径中看到阿里云RDS上的每张表对应到hive的一个文件,表名对应文件名。
【疑问】
1、阿里云RDS更新数据后,增量数据复制怎么操作?CDM中没有看到增量迁移的功能噢。如果需要分析实时数据,那怎么进行自动从阿里云上实时同步数据到华为云上呢?
========================================
今天周六开了一天会,头都是晕的。今晚早点歇歇,改天再研究,肯定有办法的。