GooSeeKer集搜客工具爬虫入门

一、操作步骤

下面用大众点评网作为案例，给大家演示如何使用直观标注的功能采集网页数据，操作步骤如下：

二、案例规则+操作步骤

第一步：打开网页

1.1，打开GS爬虫浏览器，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

1.2，在工作台中输入主题名，再点击“查重”，提示“该名可以使用”或“该名已被占用，可编辑：是”，就可以使用这个主题名，否则请重命名。

Tips：为了能准确定位网页信息，点击“定义规则”会把整个网页定格住，不能跳转网页链接，点击“普通浏览”，才会恢复到普通的网页浏览模式。

第二步：标注需要采集的信息

2.1，标注是针对网页的文本信息来操作的，双击目标信息就会选中它，在弹出小窗中输入标签名，打勾确认或Enter。首次标注还要输入整理箱名称，即存数据的表名。这也是标签与网页信息建立映射关系的过程。

2.2，重复上一步操作来标注地址、电话信息。

第三步：存规则，抓数据

3.1，点击“测试”，检查信息完整性。不完整的话，对整理箱的标签右击删掉后，再重新标注即可。

3.2，点击“存规则”。

3.3，点击“爬数据”，弹出DS打数机开始采集数据，测试采集规则是否有效。除了通过“爬数据”按钮来启动采集任务之外，还有其他运行方式，详见《DS打数机采集数据》。

第四步：查看数据

4.1，采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中

打数机采集下来的数据，一页一个XML文件，存放在硬盘的DataScraperWorks目录下，相应主题名文件夹里。

1，在硬盘的主题名文件夹里选中多个xml文件直接压缩到zip包，不要夹杂除xml外的文件夹或其他文件类型。

2，登录集搜客官网，进入会员中心->规则管理->我的规则。

3，点击对应主题名进入到管理页面，点击“导入数据”按钮，点击附件，选择数据包zip，点击导入。

4，导入成功后即可“导出数据”，在“历史记录”中可以重复下载。下载的数据，默认保存在本地的下载目录。

注意：ZIP包不能大于10M，为了稳定上传，最好分批压缩成多个2M的包。

GooSeeKer集搜客工具爬虫入门