巧用数据采集中的高级提取采集不显示在页面的内容教程

简数采集平台已集成丰富的数据处理功能,可以在采集过程中一并把数据进行加工。

此章节详述 高级提取可设置采集不显示在页面的内容,例如获取网址,图片链接,HTML标签某个属性的值等;

 

详细使用步骤:

  1. 采集内容类型

  2. 图片链接属性

  3. 选择多值

 

1. 采集内容类型

  设置不同的提取值类型,可以获取到不同类型的内容,常见的文本,含有HTML标签的内容、HTMl标签的属性等;

巧用数据采集中的高级提取采集不显示在页面的内容教程

I、快捷获取网址或图片链接

  系统提供了几个快捷功能:

  • 只获取网址:勾上启用功能,自动设置获取a标签的链接

  • 只采集图片链接:勾上启用功能,自动设置获取img标签地址;

巧用数据采集中的高级提取采集不显示在页面的内容教程

巧用数据采集中的高级提取采集不显示在页面的内容教程

 

II、提取值类型

  提取值类型可选择以下选项:

  • 文本:文字内容,无任何格式;

  • 获取html:获取定位标签内的HTML标签和内容,图片和文章排版会保留,正文content字段默认使用该提取值类型;

  • OuterHtml:获取定位标签本身及在内的HTML标签和内容,比【获取html】多了一个HTML定位标签;

  • OwnText:仅获取本定位标签的文本,不含内嵌子孙标签的文本;

  • 节点属性:可获取定位标签中的属性值,需填写对应属性的键名称;

  • 随机值:提示该字段为随机值,实际使用请到 【随机&固定值】 选项卡中设置;

  例如采集meta标签的content属性:

  <meta name="keywords" content='帮商家把生意“一键”搬进微信 京东出招了,京东,云店,超新星计划,小程序,分销'/>

巧用数据采集中的高级提取采集不显示在页面的内容教程

 

2. 图片链接属性

  系统采集图片默认从img标签的src、data-src等常见属性获取图片链接,如果采集的图片正常显示或下载,留空即可;

  如果采集的图片无法显示或下载,可能是图片链接存放在其他特殊属性中,需对应填写图片链接正确所在的属性;

  假设一网站的正确图片链接在origin-src属性;

巧用数据采集中的高级提取采集不显示在页面的内容教程

 

3. 选择多值

I、功能简介

  勾上启用功能,支持点选多个采集区域内容合并,分隔符默认是逗号,【多值分隔字符】可以修改,一般是填上换行标签<br>或者空格;

巧用数据采集中的高级提取采集不显示在页面的内容教程

 

II、多值操作

  1)多值选择一般是在常用数据处理设置的,先勾上选择多值;

巧用数据采集中的高级提取采集不显示在页面的内容教程

  2)点选你要组合的几个采集区域,假设组合标题和第一段内容,选择后可以看到多值的特征:xpath是两个路径合并的,中间分号分隔,数据预览分成了两个,中间用横线隔开;

巧用数据采集中的高级提取采集不显示在页面的内容教程

  3)多值的采集结果;

巧用数据采集中的高级提取采集不显示在页面的内容教程

巧用数据采集中的高级提取采集不显示在页面的内容教程