如何读取C#.NET Web应用程序从PDF文件中的文本

问题描述:

我在一个项目中,有一个功能性的工作需要与PDF如何读取C#.NET Web应用程序从PDF文件中的文本

实现我想要阅读PDF文件的文字在我的C#.NET项目。

任何人都可以知道如何做到这一点?

HVE一起来看看下面的链接:

How to read pdf files using C# .NET

Reading PDF in C#

希望他们能指导你正确的方向。

也许可以使用pdfLib。

pdfLib homepage

的PDFlib TET PDF IFilter的(企业PDF在Windows搜索)提取从PDF文档中的文本和元数据,并使其可用于搜索和Windows检索软件。

+0

你也写,想给你的答案点。谢谢 – 2012-03-05 10:00:44

试试这个库,非常容易使用,你需要的东西:

http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET

+0

谢谢,正确的答案。如何从拳头链接得到解决方案以及 – 2012-03-05 10:01:39

+0

没问题,快乐的你发现你的答案:) – 2012-03-05 10:05:51

简短的回答,除非你正在生成pdf并正确地做,否。

以类似于发送到打印机的方式生成PDF文件。并非所有文本都可以在其中阅读,并且关于文本的信息可以任意存储。另外一些程序可能会将文本保存为矢量或位图格式。

我更喜欢使用的getText()实现此PdfTextStripper.To的方法,你可以看看在以下网址:

http://naspinski.net/post/ParsingReading-a-PDF-file-with-C-and-AspNet-to-text.aspx

http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C