如何用Tika解析阿拉伯语pdf

问题描述:

我已经安装了tika和solr,它对阿拉伯语pdf很有效,是否有任何教程可以做到这一点,我也看到类似的问题,解决方案是包括ICU4J.jar,但我现在不意味着什么呢如何用Tika解析阿拉伯语pdf

+1

有什么问题吗?你说“*对于阿拉伯语pdf *效果很好”,所以我不确定什么不起作用,你需要什么帮助? – Gagravarr 2012-04-18 15:55:13

+0

它适用于其他文档格式,如doc,odt等...但对于pdf不提取阿拉伯文好,我认为他们已经找到了解决方案http://stackoverflow.com/questions/7834401/solr-for - 阿拉伯语,但我是Java新手。 – 2012-04-18 16:10:46

ICU4J可以在这里下载:http://site.icu-project.org/download

+0

谢谢您的回复,但如何安装? – 2012-04-21 18:38:08

+0

WEB-INF/lib是Web应用程序(如Solr)中附加库(jar文件)的标准位置。如果您正在运行Solr war文件,那么请为您的servlet容器(可能是Tomcat或Jetty)查找共享库目录。 – 2012-04-23 15:40:05

+0

不幸我是一个PHP程序员,我不使用tomcat,而是使用apache2,与apachesolr作为服务器。任何详细的Howto将会如此受到欢迎,谢谢您的回复 – 2012-04-26 11:44:50