python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)

***第一次写文章,希望通过这种方式促进自己对错误的印象与理解。(如有错误之处望斧正。)

本文利用requests与json来爬取金十上的快讯的相关信息
并且保存到本地中

对应网站URL:https://www.jin10.com/

1. 通过浏览器的F12来解析网页数据,并从中提取需要的JSON数据;
在这里插入图片描述

python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
按F5加载啦(因为是小白=.=,使用刚开始的时候搞了不少乌龙,想着:“诶?怎么我的没显示数据勒?”)
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
然后找到JS数据的板块,会发现我们所需要的快讯的内容就保存在了“flash_newest.js”上,点击后是这样子的
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
因为我们目的是提出json数据,使用为了更加直观的看到数据结构,我们可以(1). 百度搜索JSON解析器,复制对应的url到上面就可以解析啦;**(注意:这里的url是flash_json.js的Headers里的url哦)(2).下载插件

2. 但是这个案例注意的是:就是我们提出的数据是JavaScript格式的数据

python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
所以我们要清楚,我们提取到的数据不是json格式的数据,而是JavaScript格式的,所以我们要在python上对所提取回来的数据进行必要处理,使它装换成json格式的数据:
(1).先让我们看看提出到的JavaScript格式数据
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
(2).然后去头去尾转换成json数据

去头:
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
去尾:
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
即是尾部多出的“
我这里是使用python对字符串的截取来处理
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
然后得到的就是我们需要的json格式数据了。
(可以先了解一下json数据格式的数据哦!)

3.接下来就是对取得的json格式数据进行处理来的到我们所需要的内容了
(1).首先先了解我们所需要的数据存储在哪里
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
我们可以看到“快讯内容”和“快讯时间”分别保存在了“content”和“time”上
(2).提出内容
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
这样子我们就可以获得快讯的内容和时间,并且保存到了变量当中啦!
4. 然后就是保存到本地当中了
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)
不仅仅是爬取这里哦,小伙伴们还可以去爬取豆瓣上的电影呀,相片等,大伙们是不是饥渴难耐了?哈哈哈,很开心可以记录自己的学习,错误之处,忘大伙斧正。