hadoop IO操作
目录
io操作中的数据检查
数据的压缩
数据IO中的序列化操作
针对mapreduce的文件类
一. io操作中的数据检查
hadoop采用CRC-32(Cyclic Redundancy check ---循环冗余校验,其中的32指生成的校验和是32位的)的方式检验数据完整性,这是一种非常常见的校验和验证方式,检错能力强,开销小,易于实现。
主要体现在两个方面的数据完整性校验 本地和hdfs.
1.1 对本地文件的io检查
本地文件系统的完整性由客户端检查,是在存储和读取的时候检查。
1.2 对hdfs的io数据检查
1.3 数据恢复策略
二.数据的压缩
mapreduce程序指定压缩的方式(其他代码和wordcount一样)
三. 数据IO中的序列化操作