在java中使用自定义设计的特定xpath脚本解析html

问题描述:

我正在编写一个应用程序,我们需要定期监视大约5000多个网站,并使用特定内容填充数据库,例如作者,标题,日期,摘要,内容等。由于我们正在寻找非常具体和准确的内容,我们计划使用每个站点/页面类型的自定义设计的XPath脚本,并使用这些脚本来驱动解析器。在java中使用自定义设计的特定xpath脚本解析html

它是一个基于Java的应用程序。

Java中是否有任何准备好的库来执行此操作?我们非常熟悉JTidy,但它并不完全符合我们的要求。

有没有更好的方法可以推荐?

请注意 - 我已经经历了吨解析/ XPath相关的问题,并没有发现任何回答这个问题。

非常感谢..

jsoup可以做解析,并具有selector-syntax(类似于jQuery的,所以如果你知道你飞)轻松地找到节点。

如果你想做一些HTML监控和下载,那么我会使用HttpClient

+0

感谢Paul ...我们将尝试构建我们的Xpath脚本驱动程序并给JSoup一个镜头。虽然我们可能会坚持Selenium的拼抢,因为我们有很好的专业知识。 – Debasish