火车头采集器使用

介绍一下爬取网页的神器,火车头采集器的使用教程

下面以电商网站tophatter电商网站为例
下载地址:https://download.****.net/download/qq_35257875/11164832

  1. 新建任务
    火车头采集器使用

  2. 向导添加
    火车头采集器使用

  3. 批量网址
    火车头采集器使用
    地址设为上图格式
    地址参数为1开始 (就是商品的id编号) 我从115697202开始测的后面1000条 基本100条无效

  4. 点击设置
    火车头采集器使用

  5. 填写任务名保存
    火车头采集器使用

  6. 内容采集
    设置需要爬取的字段
    这里采用前后截取,购买过的可以使用json提取。
    火车头采集器使用
    所有字段格式与上图相同
    火车头采集器使用
    火车头采集器使用
    火车头采集器使用
    火车头采集器使用
    火车头采集器使用
    火车头采集器使用
    保存并退出
    字段来源:https://tophatter.com/api/v1/lots/115697202

  7. 主界面开始任务
    火车头采集器使用

  8. 等待采集完成后
    点击数据 复制内容到excel即可

火车头采集器使用