perl doc/pdf/xls转换为HTML转换器
我想将扩展名为doc/docx/xls/xlsx/pdf的文件转换为HTML文件。有没有办法在使用Perl的Solaris上以简单的方式执行该操作?perl doc/pdf/xls转换为HTML转换器
我用于处理Microsoft Office文件的perl库一直非常缺乏,而且我还没有找到能够很好地处理Office 2007和Office 2010扩展的库(请在注释中指向一个如果你知道一个!)
如果您有一台运行Microsoft Office的PC,则可以使用win32ole从unix控制Office应用程序。我用Ruby做之前: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html
下面是使用Win32 OLE Perl模块: http://metacpan.org/pod/Win32::OLE
我个人不推荐OLE方法,因为它有很多头疼的(像你必须让Office在PC上运行以使unix脚本可以正常工作,随着您的PC使用补丁更新,Windows防火墙将几乎随机地阻止unix脚本)。
我没有试过,但这里是一个将使用OpenOffice和Ghostscript为你做批量转换Java程序: http://www.codeproject.com/KB/java/PDFCM.aspx
作为一个旁注,有一个实用程序称为xpdf converts pdf files to text。这是在Solaris上编译的,尽管你必须从源代码编译(你可以从命令行调用该实用程序)。我用过它,它很棒。
更重要的是,它有一个修改版本converts pdf to html。这个我没有测试过,但可能值得一试。