如何将文档从.doc文件转换为文本
问题描述:
我一直在思索写这个问题很长一段时间。如何将文档从.doc文件转换为文本
我在越南的一家小型新闻公司工作。
我的服务器运行的文件是Ubuntu的最新版本(显然是PHP/Apache),这意味着像.doc和.docx这样的格式将无法在本机打开,就我而言知道。
但是,当记者上传文件时,有一半时间他们以某种微软格式进行。这意味着我的Linux机器无法打开和选择关键字,这对我来说是非常令人沮丧的;这是因为像pdf2txt.py
这样的东西不起作用。
解决这个问题的方法是什么,不会给记者带来太多不便?我知道,因为我运行的是Linux服务器,所以我可能不得不运行某种第三方应用程序来为我做这些工作,这可能会在短期内起作用,但可能会带来一些安全风险。
摘要:如何让Linux服务器自动将诸如.doc和.docx之类的任何格式转换为PDF格式以供进一步操作?
答
对于oldschool doc文件,请看看catdoc和wv。
对于可以将OpenOffice可以打开的任何东西转换为OpenOffice可以保存的任何东西的全能解决方案,是unoconv。
+0
谢谢你的答案,最近发生了很多事情,我无法检查,而是我以前只在非PDF上实现了一个块,现在我正在研究这个问题。 :) –
使用OpenOffice/LibreOffice。它打开MSOffice文件做得不错。 –
Microsoft Word docx文件是XML,因此您应该能够相当容易地解析出其元数据。 – Jason
[Doc to PDF with PHP + Openoffice]的可能重复(http://stackoverflow.com/questions/4652038/doc-to-pdf-with-php-openoffice) - 然而LibreOffice更容易,因为它提供了一个无头指令开关。 – mario