解析HTML并获取所有节点

问题描述:

我需要解析java中的HTML文件。与XML不同,没有重复标签。所以我需要一个能够解析html文件并到达所有节点的代码,它包含嵌套标签等等.HTML代码不是固定的。换句话说,给定任何HTML代码,我需要到达HTML中的所有标签。解析HTML并获取所有节点

+0

这个问题是有关http://*.com/questions/9664778/parsing-html-in- java – 2012-03-13 09:24:48

我认为你需要这个......

var els=document.getElementsByTagName("*"); 
for(var i=0;i<els.length;i+)document.write(els.nodeName+"<br />"); 
+0

我想检查一下。谢谢。 – 2012-03-13 06:17:27

+0

他似乎在使用Java ... – DanRedux 2012-03-13 06:24:51

+0

不,它不解析最内层的节点。你有其他想法吗? – 2012-03-13 06:25:21

+0

嗯,不能理解。你可否精心准备? – 2012-03-13 06:30:25

+0

这是一种HTML解析器,您可以在java中使用它将以xml格式返回所有html内容,如将标记设置为节点和其他文本内容以及所有内容。 CHeck示例 – 2012-03-13 06:40:41

+0

这些示例都是命令行。我无法找到java示例。对不起,你在窃听你。我是一个业余爱好者。 – 2012-03-13 06:50:40