数据采集中内容分页的快速解决方法

内容分页:指详情页的内容被拆分在多个页面(链接)中,采集时需要进行合并。

简数采集平台已集成快捷地对内容分页的支持,配置起来非常简单,在详情提取器中,鼠标点击三下即可完成配置。

详细使用教程:

  1. 分页配置流程
  2. 其他参数配置
  3. 分页采集限制

1. 分页配置流程

  1. 勾选【该字段内容使用了分页】;
  2. 勾选【分页点选开关】 或者点击【分页区域Xpath】的输入框,以便开启进行第3步的操作;
  3. 点选分页链接所在区域。完成!

  详细操作如下图: 

数据采集中内容分页的快速解决方法

2. 其他参数配置

  点击【更多分页设置】按钮,分页还可以配置其它参数:

  • 分隔符:两个页面内容合并的分隔符;(<br/>标签是换行)
  • 最大分页数量:采集最大分页数量(0则不限制,计数包含首页);
  • 分页链接包含字符:当采集的链接包含填写的字符,该链接会保留,不包含则会被过滤;

  提示:通常用于当点选的分页区域含其它非分页链接时,可定义过滤非分页链接。

数据采集中内容分页的快速解决方法

 

3. 分页采集限制

  分页限制--目前分页链接采集只支持:首页全部列出模式。

  如下图:可以完整采集分页内容;

数据采集中内容分页的快速解决方法

  如下图:只能采集显示的页数分页内容(1,2,3,4,5,6,11),中间 ... 的页数无法采集到;

数据采集中内容分页的快速解决方法