Web 网页页面前后端数据交互接口的查找与解析（本文以 Chrome 浏览器为例）

摘要

大数据环境下，人人都会写爬虫。不夸张的说，程序猿十有八九都有过写爬虫的经历，不管用的是 Java 语言或 Python 语言；其中，Python 语言，刚推广时，更是以 “3行代码写爬虫”，作为其语言较其它语言简单明了的噱头。

会写爬虫，不一定知道业务所需的数据在哪个请求中；会写爬虫，不一定会采集数据。纵观网上的爬虫教程，十有八九都只是拿到百度（首页链接：“https://www.baidu.com/”）或知乎（首页链接：“https://www.zhihu.com/”）的首页源代码即可。

采集数据的基本步骤：获取采集任务 -> 抓取业务数据所在请求的网页源代码 -> 用正则或 Jsoup 等抽取工具从源码中提取出结构化的数据 -> 将数据根据业务需要（更多需要考虑容量、性能等方面的因素）存储到指定容器（Redis 、MySQL 或 ES 等） -> 生成衍生的采集任务（衍生任务，包含广度性质的任务，比如翻页等；和深度性质的任务，比如详情页等）。

本文将着重介绍如何查找业务数据所在请求并对请求进行解析。

业务数据所在请求的查找和解析

1、所见即所得

以中国人寿年报、半年报的信源版面（示例链接：https://www.e-chinalife.com/tzzgx/tzzgx/dqbg/nbbnb/）为例，右键 “查看网页源代码”，即可看到数据。

Web 网页页面前后端数据交互接口的查找与解析（本文以 Chrome 浏览器为例）

定期变更的新闻或报告类的信源版面，一般都采用所见即所得；这类信源版面的通性是，对数据时效不敏感且用户翻页的可能性极低（翻页等广度操作，页面大部分请求都要重新加载、渲染；大量广度操作会严重影响服务端性能）。

2、简单 Ajax 加载

当使用第一种方法未找到数据时，请按下 “F12”，进入 “Network” 面板。

如图所示，Chrome 的 “Network” 面板主要由5个部分组成，包括控制器、过滤器、概览、请求列表、概要等：

组成部分	功能
控制器	控制面板的外观与功能
过滤器	过滤请求列表中显示的资源
概览	显示HTTP请求、响应的时间轴
请求列表	默认时间排序，可选择显示列
概要	请求总数、总数据量、总花费时间等