从PDF文件读取数据并将其写入Word文件?

问题描述:

如何从PDF文件中读取数据并使用Asp.net C#代码将其写入Word文件中?从PDF文件读取数据并将其写入Word文件?

您可以使用Windows中内置的IFilter的能力,这里的一些示例代码的文章:

Using-IFilter-in-C

问题与PDF文件的是,即使你能够提取的明文PDF的可读形式(这是不是任何延伸保证),文本将完全无格式。在很多情况下,即使是简单的换行符也会丢失。

+0

richard它工作正常。如果我们正在将PDF转换为文本。正如你告诉我,它失去了风格,格式,图像,图形等,所以你有任何想法,我们如何在转换中获得所有这些东西,并感谢您的帖子。 – andy 2012-02-29 07:32:21

+1

无法在没有写入的情况下恢复格式化您自己的应用程序直接解析PDF格式。这将是一项难以置信的艰巨任务 - 开发时间长达数年。 即使这样,PDF也是以不会转换回像Word这样的基于流的文档(其中文本/图形包装行,流向下一页等)的方式构建的。 PDF文件内部不包含任何文本流/包装信息,它们倾向于围绕页面上的小块文本/图形和它们的*绝对*位置组织。 为此,我推荐第三方解决方案。 – richardtallent 2012-02-29 17:57:42