巧用数据采集中的高级提取采集不显示在页面的内容教程
简数采集平台已集成丰富的数据处理功能,可以在采集过程中一并把数据进行加工。
此章节详述 高级提取可设置采集不显示在页面的内容,例如获取网址,图片链接,HTML标签某个属性的值等;
详细使用步骤:
1. 采集内容类型
设置不同的提取值类型,可以获取到不同类型的内容,常见的文本,含有HTML标签的内容、HTMl标签的属性等;
I、快捷获取网址或图片链接
系统提供了几个快捷功能:
-
只获取网址:勾上启用功能,自动设置获取a标签的链接
-
只采集图片链接:勾上启用功能,自动设置获取img标签地址;
II、提取值类型
提取值类型可选择以下选项:
-
文本:文字内容,无任何格式;
-
获取html:获取定位标签内的HTML标签和内容,图片和文章排版会保留,正文content字段默认使用该提取值类型;
-
OuterHtml:获取定位标签本身及在内的HTML标签和内容,比【获取html】多了一个HTML定位标签;
-
OwnText:仅获取本定位标签的文本,不含内嵌子孙标签的文本;
-
节点属性:可获取定位标签中的属性值,需填写对应属性的键名称;
-
随机值:提示该字段为随机值,实际使用请到 【随机&固定值】 选项卡中设置;
例如采集meta标签的content属性:
<meta name="keywords" content='帮商家把生意“一键”搬进微信 京东出招了,京东,云店,超新星计划,小程序,分销'/>
2. 图片链接属性
系统采集图片默认从img标签的src、data-src等常见属性获取图片链接,如果采集的图片正常显示或下载,留空即可;
如果采集的图片无法显示或下载,可能是图片链接存放在其他特殊属性中,需对应填写图片链接正确所在的属性;
假设一网站的正确图片链接在origin-src属性;
3. 选择多值
I、功能简介
勾上启用功能,支持点选多个采集区域内容合并,分隔符默认是逗号,【多值分隔字符】可以修改,一般是填上换行标签<br>
或者空格;
II、多值操作
1)多值选择一般是在常用数据处理设置的,先勾上选择多值;
2)点选你要组合的几个采集区域,假设组合标题和第一段内容,选择后可以看到多值的特征:xpath是两个路径合并的,中间分号分隔,数据预览分成了两个,中间用横线隔开;
3)多值的采集结果;