POI 读取Excel文件 (常遇问题)和(常用方法)

一、常遇问题

使用new HSSFWorkbook(NEW FileInputStream(excelFile))来读取Workbook,对Excel2003以前(包括2003)的版本没有问题,但读取Excel2007时发生如下异常:
org.apache.poi.poifs.filesystem.OfficeXmlFileException: The supplied DATA appears TO be IN the Office 2007+ XML. You are calling the part of POI that deals WITH OLE2 Office Documents. You need TO CALL a different part of POI TO PROCESS this DATA (eg XSSF instead of HSSF)
        该错误意思是说,文件中的数据是用Office2007+XML保存的,而现在却调用OLE2 Office文档处理,应该使用POI不同的部分来处理这些数据,比如使用XSSF来代替HSSF。
        于是按提示使用XSSF代替HSSF,用new XSSFWorkbook(excelFile)来读取Workbook,对Excel2007没有问题了,可是在读取Excel2003以前(包括2003)的版本时却发生了如下新异常:
org.apache.poi.openxml4j.exceptions.InvalidOperationException: Can't open the specified file: '*.xls'
        该错误是说,操作无效,不能打开指定的xls文件。
        下载POI的源码后进行单步调试,发现刚开始的时候还是对的,但到ZipFile类后就找不到文件了,到网上查了下,原来是XSSF不能读取Excel2003以前(包括2003)的版本,这样的话,就需要在读取前判断文件是2003前的版本还是2007的版本,然后对应调用HSSF或XSSF来读取。
        简而言之:由于HSSFWorkbook只能操作excel2003一下版本,XSSFWorkbook只能操作excel2007以上版本,所以利用Workbook接口创建对应的对象操作excel来处理兼容性

@Test
public void test6() throws Exception{
HSSFWorkbook workbook = new HSSFWorkbook(new FileInputStream( new File("c://123.xls")));
HSSFSheet sheet = workbook.getSheetAt(0);
HSSFRow row =sheet.getRow(0);
HSSFCell cell= row.getCell(0);
System.out.println(cell.toString());
}

@Test
public void test7() throws Exception{
XSSFWorkbook workbook = new XSSFWorkbook(new FileInputStream( new File("c://456.xlsx")));
XSSFSheet sheet = workbook.getSheetAt(0);
XSSFRow row =sheet.getRow(0);
XSSFCell cell= row.getCell(0);
System.out.println(cell.toString());
}

@Test //利用Workbook接口和判断excel版本创建相应版本HSSFWorkbook/XSSFWorkbook对象
public void test8() throws Exception{
String file = "c://456.xlsx";
boolean isExcel2003 = file.toLowerCase().endsWith("xls")?true:false;
Workbook workbook = null;
if(isExcel2003){
workbook = new HSSFWorkbook(new FileInputStream(new File(file)));
}else{
workbook = new XSSFWorkbook(new FileInputStream(new File(file)));
}
Sheet sheet = workbook.getSheetAt(0);
Row row =sheet.getRow(0);
Cell cell= row.getCell(0);
System.out.println(cell.toString());
}
But:对于xls格式的文档,有时会报异常

异常一:

Unable to read entire header; 0 bytes read; expected 512 bytes

解决办法:更新pio的包从3.5—final到3.15

异常二:

org.apache.poi.poifs.filesystem.NotOLE2FileException: Invalid header signature; read 0x28FBC3A7BBC3D322, expected 0xE11AB1A1E011CFD0 - Your file appears not to be a valid OLE2 document

解决办法:xml格式的文件可以用excel打开后另存为新的.xls格式就变成标准的.xls格式,另存为后的文件可以用PIO解析。

So:对于标准的xls 格式的文件可以通过上述 通过后缀的方式 用POI 去处理,对于格式有问题的xls  建议用dom4j来解析


 

二、常用方法


1、创建 Workbook 对象

    Workbook  workbook1 = new XSSFWorkbook(inputStream);      2007及以上版本使用

    Workbook  workbook2 = new HSSFWorkbook(inputStream)        2003及以下版本使用

2、读取Excel 的 Sheet

     for(int numSheet = 0; numSheet < workbook1.getNumberOfSheets(); numSheet++) {

        Sheet sheet = workbook1 .getSheetAt( i );

    }

    sheet方法:

    getSheetName()     返回此工作表的名称

    getFirstRowNum() 获取第一行的行标

    getLastRowNum()   获取最后一行(不为空的)行标,比行数小1

    getPhysicalNumberOfRows()  获取物理定义的行数,指有实际数据的行数(不是表单中的行数)

    getRow(int rownum) 返回第几行,基于0的逻辑行(非物理行)

Tips:

获取有记录的行数(getLastRowNum/ getPhysicalNumberOfRows),Excel 没有格式时返回实际行数,有格式时返回数据紊乱(所以有必要在上传Excel之前清除格式)


3、读取 行 Row

    Cell getCell(int j)                返回一个单元格对象

    short getFirstCellNum()    是获取第一个不为空的列是第几个

    short getLastCellNum()     是获取最后一个不为空的列是第几个(中间有空也算)

    int  getPhysicalNumberOfCells()      获取不为空的列个数(中间有空不算)
 

4、读取 单元格 Cell

单元格格式:(括号代表对应数值)

CELL_TYPE_NUMERIC(0)     表示对一个单元的数字数据

CELL_TYPE_STRING (1)         表示对一个单元串(文本)

CELL_TYPE_BLANK (3)           代表空白单元格

CELL_TYPE_BOOLEAN(4)      代表布尔单元(true或false)

CELL_TYPE_ERROR (5)           表示在单元的误差值

CELL_TYPE_FORMULA(2)       表示一个单元格公式的结果

 

单元格的类型:

setCellType(int  cellType)     设置单元格的类型(数字,公式或字符串)。

getCellType( )                     返回单元格的类型,为数字,常与单元格格式一起使用

    如:mycell.getCellType ==XSSFCell.CELL_TYPE_STRING  就代表该单元格格式为字符串类型的

单元格的值:

setCellValue(各种类型)    设置单元格的值

读取单元格的内容:(一般情况下做个switch判断,根据单元格的类型使用对应的方法)

    String      getStringCellValue();
    Double    getNumericCellValue();
    Date        getDateCellValue();
    Boolean  getBooleanCellValue();

    byte        getErrorCellValue(); 

单元格的样式:

setCellStyle(CellStyle style)    为单元格设置样式。  

POI 读取Excel文件 (常遇问题)和(常用方法)