我如何通过simple_html_dom
问题描述:
一系列类似的不包含的模块顺序,我需要分析大量文件,具有设置为后跟一个DIV一系列标题的元素,像这样:我如何通过simple_html_dom
<h2> Section Title </h2>
<div> Section Content</div>
<h2> Section Title 2</h2>
<div> Section Content2</div>
<h4> Section Title 3</h4>
<div> Section Content 3</div>
所以基本上在dom中,我需要将<h>
与下面的<div>
组合在一起。 dom似乎不是儿童/兄弟姐妹/父母功能的元素,而且我还需要考虑输入文件中的不一致性,所以不希望执行类似查找所有h元素的操作,找到所有divs,并遍历循环中的每个列表,假设元素是正确的匹配。有没有什么方法让dom建立起来,这样我就可以使用子功能或者其他一些干净的方式来穿过dom来做到这一点?
答
我觉得最简单的方法就是访问元素'root',以元素的形式到达dom的顶部。
从那里可以知道如何遍历子元素的序列,但在这种情况下,如果内容是可预测的,那么对div和prev_sibling()的搜索似乎可行,但我的内容可能是