什么是使用C#或经典ASP(VBScript)从PDF中提取文本的好方法?

问题描述:

有从PDF提取文本的好库吗?如果必须的话,我愿意付钱。什么是使用C#或经典ASP(VBScript)从PDF中提取文本的好方法?

与C#或传统ASP(VBScript)一起工作的东西将是理想的,我也需要能够将页面与PDF分开。

This question有一些有趣的东西,特别是pdftotext但我想避免调用外部命令行应用程序,如果我可以。

您可以使用Windows内置的IFilter接口从任何支持的文件类型中提取文本和属性(作者,标题等)。这是一个COM接口,所以你可以使用.NET interop工具。

您还必须从Adobe下载免费的PDF IFilter驱动程序。

这里是一个很好的列表: Open Source Libs for PDF/C#

大多数的这些都是为了向创建PDF,但他们应该已经阅读能力以及。

有这一个还有:iText

我只用iText的前播放。没什么大不了

我们使用Aspose,效果不错。

Docotic.Pdf library可用于从PDF文档中提取格式化或纯文本。

该库可以读取任何版本的PDF文档(达到最新公布的标准)。库的提取也支持。

链接示例代码:

声明:我在图书馆的供应商合作。

添加到批准的答案:有交替的商业解决方案,以替代的Adobe IFilter的文本索引(提供类似的API,而且还要附加保费的功能):

  1. Foxit PDF IFilter:提供更快的文本索引比较Adobe的插件。
  2. PDFLib PDF iFilter:包含对受损PDF文档的支持以及额外的API来运行您自己的查询。

如果你正在寻找一个工具,可以从两个托管的.NET应用程序和继承的编程语言像传统的ASP或VB6中使用,那么这是在商业ByteScout PDF Extractor SDK将适合,因为它同时提供了.NET和ActiveX/COM API。

声明:我为ByteScout工作