Gooseeker软件使用教程
分类:
文章
•
2024-08-20 09:25:04
因为课程需要使用到Gooseeker软件,写个使用教程防止以后忘记
- 安装好gooseeker软件,下图为安装好的界面:
- 点击右上方的“MS谋数台”,弹出如下界面:
- 在左上方的网址栏输入想要爬取的网站,我这里输入天气网站(http://tianqi.2345.com/wea_history/57516.htm),并在工作台里面创建任务,进行命名和查重,直到可以使用:
- 在工作台上方标题栏中选择创建规则,选择“新建”并命名,点击确定:
- 点击“抓取内容”中自己的命名的一栏,选中点击右键,选择“添加”,选择“包容”:
- 输入你想抓取的内容名称并保存,我这里重复此步骤,创建抓取内容“日期”、“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”,并将“日期”勾选为关键内容:
- 在“浏览器”窗口中点击你想要获取的内容,比如现在要获取“日期”,就在“日期”那个区域进行鼠标点击,这时候MS谋数台会自动定位“日期”,即在HTML中结点的DIV结点位置。展开结点,找到text结点,右击鼠标,选择内容映射,然后选择你想要映射至的抓取内容:
- 重复进行第七步,知道把想要抓取的内容给全部映射:
- 创建爬虫路线,点击工作台标题栏中的“爬虫路线”,点击“新建”:
- 创建翻页定位编号,在浏览器中点击上一月,网页会自动定位该文本的结点,右击结点选择“翻页映射”,“作为翻页区”,“线索一”:
- 创建记号定位编号,在游览器中点击上一月,在网页标签里会自动该文本定位的结点,打开该结点,可以看到text属性,右击text(此处只能右击text,不能右击结点),选择 “翻页映射”,“ 作为翻页记号”:
- 创建样例复制映射,点击工作台标题栏里面的新建规则,勾选右方的启用,启动样例复制管理功能:
- 分别找到该页面想要爬取的第一条数据的日期栏和第二条数据对应的日期栏的节点,右击第一条数据的日期栏对应的结点,选择“样例复制映射”,“第一个”,右击第二条数据的日期栏对应的结点,选择“样例复制映射”,“第二个”:

- 点击工作台左方的测试,对当前的规则进行测试:
- 当测试爬取内容为想要的爬取内容时就可以保存当前规则了,点击“MS谋数台”右上方的“存规则”即可保存规则,然后可以使用我们创建的规则进行数据爬取了,想要看自己是否保存规则,就在工作台标题栏里面的“搜规则”查看:
- 打开“DS打数机”,“DS打数机”在Gooseeker浏览器中的右上方,打开“DS打数机”,点击“文件”,“存储路径”,“ 自定义数据的存储路径”:


- 点击“单搜”,设置抓取网页数量,即可开始抓取:

- 然后打开存储地址,然后可以看到爬取的数据以XML文件保存:
- 用EXCEL打开其中一个文件,可以看到爬取的数据集,数据爬取完成: