利用搜索引擎进行资源搜集第二课时

这是一篇搜索进阶篇文章

本篇文章的内容包括以下四个方面
谷歌高级语法深入探索、利用谷歌进行科学上网、利用chrome浏览器分析网站接口的方法以及简单爬虫分析。

大家利用搜索引擎一般干嘛呢?谷歌搜索引擎作为黑客必用的一个浏览器,自然会有很多比较厉害的特点。让我们来探讨一下谷歌搜索引擎到底能干些啥。

了解谷歌高级语法
上一篇内容中,我们初步探索了搜索引擎的语法。这一篇,我们同样以例子的方式来深入了解。
(1)、排列组合我们的关键词
利用“|”分隔关键词,表达或者的含义

例子:
利用搜索引擎进行资源搜集第二课时

这样就可以搜索出包含“身份证号”或者包含“学号”的信息。

利用空格或者点号(“.”)分隔关键词,表达和的含义
例子:
利用搜索引擎进行资源搜集第二课时

搜索出来的内容是既包含身份证号有包含学号的内容。
(2)、需要掌握的高级操作符
注意:高级操作符和关键词之间需要加上英文冒号(":”)。英文冒号和中文冒号的区别可以但很难用肉眼区别出来。所以要确保在英文输入状态下打这个冒号。

使用site关键字定位网址
Site关键字在入门篇中,我们详细使用过。这里不再赘述。
例子:
利用搜索引擎进行资源搜集第二课时

使用intitle查询在标签中的关键字
利用搜索引擎进行资源搜集第二课时
那么什么是title呢?
利用搜索引擎进行资源搜集第二课时
用红色框框住的就是title了。一般来说,这个title都指明了当前这个页面是什么功能,所以如果需要找特定功能的东西,就可以使用Intitle。

使用inurl关键字表示在url(链接)中查找关键词
那么,什么是url呢?以上面的图片为例子:
利用搜索引擎进行资源搜集第二课时
这个就是url。那我们来验证一下这个关键字的有效性吧。
利用搜索引擎进行资源搜集第二课时
这个例子我使用了两个关键字,限定了在某个网址下搜索url里面包含login的链接。可以看见,关键词的组合是通过空格隔开的方式,与上面说的排列组合我们的关键词类似。

使用intext表达在网页内容里查找字符串
那么,什么是网页内容呢?就是整个网站里面讲的是什么,就好比写一篇文章的主体内容。
例子:
利用搜索引擎进行资源搜集第二课时
利用上面四个关键字及其排列组合,我们已经可以很精确地对我们的关键词进行查找了。现在,再来讨论下不是很常用的关键字。
使用FileType搜索指定类型的文件
例子:
利用搜索引擎进行资源搜集第二课时
使用stocks搜索某个公司的股票信息
利用搜索引擎进行资源搜集第二课时
当然,谷歌高级语法中,这些关键字算是九牛一毛,但是已经可以满足我们日常的生活了。如果有想深入了解的朋友,我可以推荐一本书,叫《Google Hacking 技术手册》。

利用谷歌进行科学上网
在工作和学习中,我们往往需要利用科学上网去查阅比较新的资料,加上谷歌镜像站本身的不稳定,所以,备一个紧急科学上网的方法也是必要的。我把我科学上网的方法分享给大家。
我把插件和操作指南放到了压缩包里,大家下载之后照着里面的教程做就好。

链接:https://pan.baidu.com/s/1BY1dBXu_i_wTHgcXWoiWWQ
提取码:y3zu

失效联系我补
因为本插件是付费的,为避免广告嫌疑,我也不推荐大家使用这个插件。下面来说说安装流程。百度网盘下载好压缩包后解压,然后打开是这个样子:
利用搜索引擎进行资源搜集第二课时
然后打开你的chrome浏览器,在浏览器中输入扩展程序的网址:chrome://extensions/
然后把
利用搜索引擎进行资源搜集第二课时
这个文件直接拖到页面中即可。安装完成之后需要注册,然后登陆就可以了。
利用搜索引擎进行资源搜集第二课时
一共有三种模式,可根据个人喜好调整。

利用谷歌浏览器搜索进阶实际上内容已经讨论完了。但是我开头提出的问题,搜索引擎能做的,远不止这些。我们可以利用浏览器来提取网站接口,进而为我们搜集资源提供便利。

利用浏览器分析网站接口
先来说说什么是网站接口。一个网站,实际上分为前端和后端,前端一般主要做数据渲染,即将一堆堆难以理解的数据以网页的形式展示出来,那么后端,就是提供这些数据的。而提供的方式,就是利用的接口的方式。今天,我就以链家为例,来分析接口。由于分析接口我用firefox用得比较多,所以这里用firefox进行演示
首先,打开链家首页,然后点击 alt键,选择工具->web开发者->Web控制台
利用搜索引擎进行资源搜集第二课时
刷新网站,可以发现,前端向后端发起了很多请求,点开其中一个:
利用搜索引擎进行资源搜集第二课时
这里的https://cq.lianjia.com/site/getRecommendResblockInfo/是请求地址,get是请求方法
利用搜索引擎进行资源搜集第二课时
选择响应按钮,可以发现后端给前端传来了很多数据。这时我们就抓到了一个接口。但是这个接口是否真的有用呢,还得看具体自己收集什么资源。这里只是给大家介绍有这么一种技术。如果有想深入了解的小伙伴,可以关注本公众号后面的文章。

简单了解爬虫
首先需要说明的一点是,爬虫只能获取公开共享的东西。
爬虫又叫网络机器人,为啥叫这个名字呢,因为爬虫可以替代人做大量重复的操作。以http://www.java1234.com/为例,这个网站收集了各种各样的百度网盘链接,但是每个页面只有一个网盘链接,而且他们以类似的结构放在每个页面几乎相同的位置上。如果每个链接都人为的一个一个点,然后一个一个保存百度网盘的链接,是否过于繁琐了呢。这时候,如果利用爬虫,合理的编写代码,就可以实现自动收集百度网盘链接资源的功能。
爬虫一般是程序开发人员用代码对人工过程进行模拟实现的,同时利用线程池技术能大大提高工作效率。从程序开发的角度来说,这对于没有学过编程的同学来说难度就有点大了。但这并不意味者非编程人员就使用不了爬虫。网上也有一些爬虫软件,只不过这些软件往往自定义的能力不行,无法满足爬虫使用者真正的需求。所以,对于看到这里的同学,我还是建议大家学学python这门编程语言,用来写爬虫简单易上手。

谢谢观看,愿对你有帮助。