如何使用Java读取PDF中的内容
读取PDF中内容需要调用第三方jar包。我用的itextpdf-5.5.6.jar
首先在pom.xml文件中添加itextpdf依赖:
<dependency>
<groupId>com.itextpdf</groupId>
<artifactId>itextpdf</artifactId>
<version>5.5.6</version>
</dependency>
然后就可以写代码了。需要用到itextpdf-5.5.6.jar中的两个类
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
public static void main(String[] args) throws IOException {
String fileName="/Users/zen/Desktop/zen/sourcepdf/target1.pdf";//源文件的位置
PdfReader reader = null;//PDF读取器
reader = new PdfReader(fileName);
String content = PdfTextExtractor.getTextFromPage(reader, 1); // 读取PDF中第1页(用哪一页就写几)的文档内容,并转成String
System.out.println(content);//控制台打印PDF第一页的内容
}
打印的内容如图: