探秘Java字节码文件

类文件结构

实现语言无关性的基础仍然为虚拟机字节码存储格式,Java虚拟机不和包括Java在内的任何语言绑定,它只与“Class文件”这种特定的二进制文件格式所关联。

Class文件的结构

Class文件是一组以8位字节为基础单位的二进制流,各个项目严格按照顺序排列,其中没有分隔符。
任何一个Class文件都对应着唯一一个类或接口的定义信息。Class文件中只有两种数据类型:无符号数和表。无符号数中以u1,u2,u4,u8分别代表1个字节、2个字节、4个字节和无符号数。表是由多个无符号数或其他表作为数据项构成的复合数据类型,所有的表都习惯性的以“_info”结尾。
Class文件的整体框架见下图所示。
探秘Java字节码文件
无论是无符号数还是表,当需要描述同一类型但数量补丁的多个数据时,要使用到前置容量计数器+若干个连续的数据项的形式。

魔数与Class文件的版本

每个Class文件头4个字节都被称为魔数,它的唯一作用是确定这个文件是否为一个能被虚拟机接受的Class文件。Class文件的魔数0xCAFEBABE
版本号:minor_version代表小版本,major_version代表大版本

常量池:

常量池可以理解为Class文件之中的资源仓库。常量池中主要存放两大类常量:字面量(Literal)和符号引用(Symbolic References)。
字面量即Java语言层面的常量,如文本字符串、声明为final的常量值;符号引用属于编译原理方面的概念,包括下面三类常量:
* 类和接口的全限定名
* 字段(成员变量)的名称和描述符
* 方法的名称和描述符
由于常量池中的常量的数量是不固定的,所以需要一个名为constant_pool_count的u2类型的数据表示常量池中常量的个数。
常量池中每一项常量都是一个表,每一种常量类型对应着一种表结构,常量池中所有的常量类型如下图所示
探秘Java字节码文件
CONSTANT_Class_info为例,介绍这一常量的结构
探秘Java字节码文件
第一项tag即表示该表属于哪种常量的表结构,第二项name_index指向了一个CONSTANT_Utf8_info的常量(以_index)结尾的都是一个类似指针的变量,指向一个地址
常量池中14种常量项的结构总表见下图
探秘Java字节码文件
探秘Java字节码文件

访问标志

常量池之后,紧跟着两个字节代表访问标志access_flags,这个标志用于识别类或接口层次的访问信息,包括:这个Class是类还是接口,是否定义为public类型;是否定义为abstract类型,如果是类的话,是否被声明为final等。

类索引、父类索引与接口索引集合

this_class和super_class都是一个u2类型的数据,而interfaces是一组u2类型的数据集合(需要interfaces_count指明接口数量)。
类索引、父类索引和接口索引都向常量池中的类的全限定名常量。类索引查找全限定名的过程如下图所示
探秘Java字节码文件

字段表集合

字段表用于描述接口或者类中声明的变量,但不包括方法内部声明的局部变量,也不会列出从超类或父类接口中继承而来的字段。
每个字段表都需要从这些方面对字段进行描述:访问标志(access_flags),简单名称索引(name_index),描述符(descriptor_index),如下图
探秘Java字节码文件

  • access_flags用来描述该字段的作用域(public, private, protected)、是否为静态变量(static)、可变性(final)、并发可见性(volatile)……
  • 简单名称是指没有类型和参数修饰的方法或字段名称
  • 描述符:对于变量而言是数据类型,例如java.lang.String[][]的描述符为[[Ljava/lang/String;对于方法而言是数据类型+参数列表+返回值,例如void inc()的描述符为()V
  • 属性:如果这个变量有初值,则需要用一个属性表的数据结构去描述,关于属性表会在后面详细介绍

方法表集合

用于描述方法,与字段表集合类似。方法里的Java代码,经过编译器编译成字节码指令后,存放在“Code”属性表中。

属性表集合

属性表可以出现在Class文件、字段表、方发表中,这里只介绍Code属性,该属性出现在方法表中,其结构如下图
探秘Java字节码文件
Java程序中的信息可以分为代码(Code,方法体里面的Java代码)和元数据(Metadata,包括类、字段、方法定义以及其他信息),其中,Code属性用于描述代码,所有其他数据项目用于描述元数据。

(本文总结于《深入理解Java虚拟机》)