PageEncoding和ContentType的区别

        博主只是学生,本博客的内容均为本人自己的理解,若有不正确的地方,希望大家指正,不胜感激

   


         由于这两者涉及到编码,先来说说编码的一些问题,大多数人将编码和字符集两者搞混,例如平常常说的unicode,其实是一个字符集,所谓的字符集包括两个方面,一、字符的集合,二、编码方案,unicode字符集的编码方式有UTF-8,UTF-16,UTF-32,其中UTF-16又分为UTF-16LE和UTF-16BE,UTF-16LE是小端序,UTF-16BE是大端序。例如表示0x60,用UTF-16BE表示为0x00 0x60,用UTF-16LE表示为0x60 0x00,据说UTF-16LE效率较高,这其中涉及到汇编知识,由于还没学过,所以在此就不多说了,java中采用的unicode编码是UTF-16BE,为了区分UTF-16BE和UTF-16LE,unicode组织引入了BOM的概念,在windows的记事本中的unicode编码采用的就是这种方法,方法为用文件的头两个字节区分UTF-16BE和UTF-16LE,UTF-16BE为[0xFE,0xFF] UTF-16LE为[0xFF,0xFE]



         以下实验均为直接在tomcat中进行,不会在eclipse中进行(由于平台会替我们完成一些事情,其中可能就有编码方式的转换),采用Notepad编写代码(由于Notepad中的utf-16有BOM类型的也有没有BOM的),tomcat版本为8.0



          .java为后缀的文件采用的是UTF-8编码


          回到正题,pageEncoding与ContentType中的charset的区别是什么?

         PageEncoding指的是jsp文件的编码方式,ContentType指的是服务器发送给客户端时的编码,为什么需要指定jsp文件的编码方式?

        java编译器在编译时,会生成.java和.class后缀的文件,而.java文件的编码方式为UTF-8,而jsp文件的编码方式不一定就是UTF-8,因此要通知编译器jsp文件采用的编码方式,以便编译器根据编码读取jsp文件,然后翻译成UTF-8编码的.java文件,而PageEncoding的作用就是通知编译器jsp的编码方式。以下为实验结果


PageEncoding和ContentType的区别


       jsp文件编码采用的是UTF-8,启动tomcat,生成的.java文件结果如下:


PageEncoding和ContentType的区别


       没有乱码的情况,接下来修改编码方式为UTF-16LE


PageEncoding和ContentType的区别


生成的是一堆乱码。也有另一种可能:服务器拒绝编译jsp文件


总的来说,pageEncoding的值必须与jsp文件的编码方式一致,它并不是决定jsp文件的编码方式,只起到通知的作用


        在进行实验的过程中,出现了一些意外,当我尝试将pageEncoding改为不带BOM的UTF-16BE时,虽然与jsp文件编码一致,但生成.java文件却是乱码,当将jsp文件的编码改为带BOM的UTF-16BE时,不论pageEncoding的值是UTF-16、UTF-16BE、UTF-16LE,.java文件都不会出现乱码的情况,对此,我的猜测是,tomcat 8.0在编译jsp时,只认得带BOM的UTF-16,此时不论pageEncoding的值为UTF-16,还是UTF-16BE(LE),均默认为带BOM的UTF-16,这只是我的猜测。



contentType的值在生成的.java文件中对应的是

PageEncoding和ContentType的区别

         contentType的值是用来设置response容器的,charset指定了response容器采用的编码方式,此处使用UTF-16,应该是默认带BOM的,在.java文件中,可以看到与jsp文件的部分内容是在out.write("")里的,其实该方法会将这些内容写到response容器中,内容的编码会由UTF-8转换为response指定的编码,response容器的内容会发送到客户端,客户端可能会进行编码的转化(也可能不会进行转换,导致出来的是乱码)


下面为实验结果:


PageEncoding和ContentType的区别


打开生成的.java文件,看到如下代码:


PageEncoding和ContentType的区别


总结一下:

pageEncoding的值必须与jsp文件本身的编码一致,以便翻译成.java文件

contentType指定发送给客户端时数据的编码方式