什么是使用C#或经典ASP(VBScript)从PDF中提取文本的好方法?
问题描述:
有从PDF提取文本的好库吗?如果必须的话,我愿意付钱。什么是使用C#或经典ASP(VBScript)从PDF中提取文本的好方法?
与C#或传统ASP(VBScript)一起工作的东西将是理想的,我也需要能够将页面与PDF分开。
This question有一些有趣的东西,特别是pdftotext但我想避免调用外部命令行应用程序,如果我可以。
答
您可以使用Windows内置的IFilter接口从任何支持的文件类型中提取文本和属性(作者,标题等)。这是一个COM接口,所以你可以使用.NET interop工具。
您还必须从Adobe下载免费的PDF IFilter驱动程序。
答
这里是一个很好的列表: Open Source Libs for PDF/C#
大多数的这些都是为了向创建PDF,但他们应该已经阅读能力以及。
有这一个还有:iText
我只用iText的前播放。没什么大不了
答
Docotic.Pdf library可用于从PDF文档中提取格式化或纯文本。
该库可以读取任何版本的PDF文档(达到最新公布的标准)。库的提取也支持。
链接示例代码:
声明:我在图书馆的供应商合作。
答
添加到批准的答案:有交替的商业解决方案,以替代的Adobe IFilter的文本索引(提供类似的API,而且还要附加保费的功能):
- Foxit PDF IFilter:提供更快的文本索引比较Adobe的插件。
- PDFLib PDF iFilter:包含对受损PDF文档的支持以及额外的API来运行您自己的查询。
如果你正在寻找一个工具,可以从两个托管的.NET应用程序和继承的编程语言像传统的ASP或VB6中使用,那么这是在商业ByteScout PDF Extractor SDK将适合,因为它同时提供了.NET和ActiveX/COM API。
声明:我为ByteScout工作