大数据测试初探(二)
数据处理一般性流程
大数据测试特点
大批量,实时性,可交互。
测试入口&测试基本思路
源数据存入Hadoop系统:验证源数据正确提取和加载至HDFS中;
- 验证数据已加载至hadoop;
- 验证加载至hadoop数据的正确性;
- 验证已提取和已加载正确的数据至HDFS正确位置中;
Mapreduce处理过程的验证:验证数据处理规则以及计算逻辑正确;
- Mapreduce过程正常工作;
- 数据聚合分离规则实现;
- key-value关系已生成;
- 经过map reduce后的数据准确性验证;
结果验证:验证最终数据成果的正确性,持久性,完整性;
- 数据转换规则正确实现;
- 数据正确,完整,持久存入目标系统;
- 通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏;
测试重点
- 数据源的获取或模拟
尽量构造贴近于真实场景数量、复杂度的测试数据。大数据测试涉及数据量大,数据又复杂,所以构造测试数据是难点。可通过python脚本mock数据。
- 数据处理规则计算逻辑的验证
要验证数据在处理过程各节点业务逻辑的正确性和数据处理的正确性,最后也要保证生成输出数据文件,并准备根据需要将其移至企业数据仓库或任何其他系统。