数据采集过程中快速对HTML标签过滤教程

简数采集平台已集成丰富的数据处理功能,可以在采集过程中一并把数据进行加工。这一章节主要讲关于过滤指定HTML标签,如table、hr、img等。

详细使用步骤:

  1. 基本功能
  2. 自定义HTML标签过滤

1. 基本功能

  使用HTML标签过滤功能的前提,该字段要获取HTML,且删除的只是HTML标签本身,标签中的文本是保留的;

  系统默认使用【过滤部分html标签】功能(勾上即启用),该功能会过滤掉不常用的标签和标签属性(属性会删除class,id,alt等,保留style),如果勾掉不启用,会保留原文的全部HTML标签和属性;

  保留标签属性:alt和title,这两个属性一般是出现在图片标签里,有需要的勾上即保留,但注意这两个属性填写的字词,如果和SEO的内链关键词一致,也会插入链接,导致图片无法正常显示,默认不启用;

数据采集过程中快速对HTML标签过滤教程

 

2. 自定义HTML标签过滤

  如果要自定义选择保留HTML标签,不使用系统默认的HTML标签过滤,请按照以下操作:

  I、 【过滤部分html标签】功能勾上启用;

  II、 点击【重置为默认】按钮,显示系统默认的过滤HTML标签规则;

数据采集过程中快速对HTML标签过滤教程