Nutch解析HTML5头标记

问题描述:

我想解析使用Nutch 1.2的HTML5页面,并遇到索引中包含HTML5标记'头部'的问题。Nutch解析HTML5头标记

我曾用'parser.html.divIDsToExclude'排除HTML4标头,但这将不再符合我的要求。

是否有类似的插件,它可以排除配置HTML5标签

谢谢!

我已经在Nutch 1.6中成功地使用了这个插件。

Nutch filter xpath

我也有相反的要求,我想只包括特定的股利。 :)

使用此插件,您可以使用XPath查询来配置要提取的HTML文档的哪些部分。