我如何通过simple_html_dom

问题描述:

一系列类似的不包含的模块顺序,我需要分析大量文件,具有设置为后跟一个DIV一系列标题的元素,像这样:我如何通过simple_html_dom

<h2> Section Title </h2> 
<div> Section Content</div> 
<h2> Section Title 2</h2> 
<div> Section Content2</div> 
<h4> Section Title 3</h4> 
<div> Section Content 3</div> 

所以基本上在dom中,我需要将<h>与下面的<div>组合在一起。 dom似乎不是儿童/兄弟姐妹/父母功能的元素,而且我还需要考虑输入文件中的不一致性,所以不希望执行类似查找所有h元素的操作,找到所有divs,并遍历循环中的每个列表,假设元素是正确的匹配。有没有什么方法让dom建立起来,这样我就可以使用子功能或者其他一些干净的方式来穿过dom来做到这一点?

我觉得最简单的方法就是访问元素'root',以元素的形式到达dom的顶部。

从那里可以知道如何遍历子元素的序列,但在这种情况下,如果内容是可预测的,那么对div和prev_sibling()的搜索似乎可行,但我的内容可能是