实木复合地板二进制数据类型

问题描述:

我有一个关于二进制数据类型的问题。我想为我的MR作业写一个Parquet Schema来创建Parquet文件,这与Hive或Impala创建Parquet文件相反。我看到一些二进制类型的引用,我没有在Parquet中看到实木复合地板二进制数据类型

二进制是BYTE_ARRAY的别名吗?

也是UTF-8在二进制数据类型上的默认编码?

原始字节作为固定长度字节数组(FIXED_LEN_BYTE_ARRAY)或作为可变长度字节数组(BYTE_ARRAY,也称为二进制数)存储在Parquet中。固定值用于具有常量大小的值,如SHA1哈希值。大多数情况下,使用可变长度版本。

字符串被编码为具有UTF8类型注释的可变长度二进制文件,以指示如何将原始字节解释回字符串。 UTF8是格式中唯一支持的编码,但并非每个二进制文件都使用UTF8,因为并非所有二进制字段都存储字符串数据。