C++数据类型之half float
c++浮点类型只有float与double,最近工作需要用半精度浮点。
首先我们得搞清楚float在内存的二进制表示,详情见:IEEE754浮点定义
如下图:
float的内存表示由:1位符号为、8位指数位、23位有效数字位组成
组合公式为:
8指数位的理论取值范围为:[-128,127]或者[0,255],但此处的取值范围却是为:[-126,127],00000000和00000001都表示-126,11111111表示nan(not a number)。
我们递推一下:
00000000:-126
00000001:-126
00000010:-125
00000011:-124
~
~
~
11111110:127
在加上底数2,指数的取值范围就为:[2**(-126) ,2127]
有效数字位视为23位无符号整数就行了。
符号位0表示正数
举个例子:
0 00000001 00000000000000000000001
(2(-126)) * 1 = 1.17549449095e-38
其实这就是C++float的最小值
再看一个例子
0 11111110 11111111111111111111111
(2**(127))*8388607 = 3.40282346639e+38
这是c++float的最大值。
搞清楚float了,就很好理解 half float了:
解析规则按照float的解析规则递推就行了。
C++ half包:
C++ half float library
最好用C++11及以上版本