GooSeeKer集搜客工具爬虫入门
一、操作步骤
下面用大众点评网作为案例,给大家演示如何使用直观标注的功能采集网页数据,操作步骤如下:
二、案例规则+操作步骤
- 采集规则:大众点评店铺信息(可点击下载)
- 样本网址:http://www.dianping.com/shop/32656893
- 采集内容:店铺名称、地址、电话
第一步:打开网页
1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;
1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。
Tips:为了能准确定位网页信息,点击“定义规则”会把整个网页定格住,不能跳转网页链接,点击“普通浏览”,才会恢复到普通的网页浏览模式。
第二步:标注需要采集的信息
2.1,标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。
2.2,重复上一步操作来标注地址、电话信息。
第三步:存规则,抓数据
3.1,点击“测试”,检查信息完整性。不完整的话,对整理箱的标签右击删掉后,再重新标注即可。
3.2,点击“存规则”。
3.3,点击“爬数据”,弹出DS打数机开始采集数据,测试采集规则是否有效。除了通过“爬数据”按钮来启动采集任务之外,还有其他运行方式,详见《DS打数机采集数据》。
第四步:查看数据
4.1,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中
打数机采集下来的数据,一页一个XML文件,存放在硬盘的DataScraperWorks目录下,相应主题名文件夹里。
1,在硬盘的主题名文件夹里选中多个xml文件直接压缩到zip包,不要夹杂除xml外的文件夹或其他文件类型。
2,登录集搜客官网,进入会员中心->规则管理->我的规则。
3,点击对应主题名进入到管理页面,点击“导入数据”按钮,点击附件,选择数据包zip,点击导入。
4,导入成功后即可“导出数据”,在“历史记录”中可以重复下载。下载的数据,默认保存在本地的下载目录。
注意:ZIP包不能大于10M,为了稳定上传,最好分批压缩成多个2M的包。