hadoop IO操作

hadoop IO操作

目录

        io操作中的数据检查

        数据的压缩

        数据IO中的序列化操作

        针对mapreduce的文件类

hadoop IO操作

   一. io操作中的数据检查

        hadoop采用CRC-32(Cyclic Redundancy check ---循环冗余校验,其中的32指生成的校验和是32位的)的方式检验数据完整性,这是一种非常常见的校验和验证方式,检错能力强,开销小,易于实现。

        主要体现在两个方面的数据完整性校验 本地和hdfs.

       1.1 对本地文件的io检查

            本地文件系统的完整性由客户端检查,是在存储和读取的时候检查。

           hadoop IO操作

hadoop IO操作

hadoop IO操作

       1.2 对hdfs的io数据检查

hadoop IO操作

hadoop IO操作

     1.3 数据恢复策略

二.数据的压缩

      hadoop IO操作

       hadoop IO操作

      mapreduce程序指定压缩的方式(其他代码和wordcount一样)

     hadoop IO操作

  三. 数据IO中的序列化操作