C++数据类型之half float

c++浮点类型只有float与double，最近工作需要用半精度浮点。
首先我们得搞清楚float在内存的二进制表示,详情见:IEEE754浮点定义
如下图：
C++数据类型之half float
float的内存表示由：1位符号为、8位指数位、23位有效数字位组成
组合公式为：

8指数位的理论取值范围为：[-128,127]或者[0,255],但此处的取值范围却是为:[-126,127],00000000和00000001都表示-126,11111111表示nan(not a number)。
我们递推一下：
00000000：-126
00000001：-126
00000010：-125
00000011：-124
~
~
~
11111110:127
在加上底数2，指数的取值范围就为：[2**(-126) ,2127]
有效数字位视为23位无符号整数就行了。
符号位0表示正数
举个例子：
0 00000001 00000000000000000000001
(2(-126)) * 1 = 1.17549449095e-38
其实这就是C++float的最小值
再看一个例子
0 11111110 11111111111111111111111
(2**(127))*8388607 = 3.40282346639e+38
这是c++float的最大值。
搞清楚float了，就很好理解 half float了：
C++数据类型之half float
解析规则按照float的解析规则递推就行了。
C++ half包：
C++ half float library
最好用C++11及以上版本

C++数据类型之half float

相关推荐