Python学习笔记(12) 采集网页html源码

一、操作步骤

对于学习网页设计的人来说，有时候遇到了自己很喜欢的网页，却得不到它的html代码，或者得到的代码不完整。下面用网易新闻采集作为案例，教大家采集html源码，具体操作步骤如下：

二、案例规则+操作步骤

第一步：打开网页

1.1，打开网络爬虫，输入想要采集的样本网址并ENTER，加载出网页后再点击“定义规则”；

1.2，在工作台中输入主题名，并点击“查重”看主题名是否被占用。

Python学习笔记(12) 采集网页html源码

第二步：标注信息

2.1，双击要抓取的目标信息，输入整理箱名和标签名，并勾上关键内容。

Python学习笔记(12) 采集网页html源码

2.2，双击字段名，给抓取内容设置高级选项，勾选“高级设置”，选择“网页片段”，保存。

Python学习笔记(12) 采集网页html源码

第三步：存规则，抓数据

3.1，规则测试成功后，点击“存规则”；

3.2，点击“爬数据”，弹出DS打数机，开始抓数据。

Python学习笔记(12) 采集网页html源码

**Tips：**想要网页的整个html源码，可以直接对html节点做映射，然后高级设置里选择网页片段，最后保存规则。操作如下图：

Python学习笔记(12) 采集网页html源码