利用搜索引擎进行资源搜集第二课时

这是一篇搜索进阶篇文章

本篇文章的内容包括以下四个方面
谷歌高级语法深入探索、利用谷歌进行科学上网、利用chrome浏览器分析网站接口的方法以及简单爬虫分析。

大家利用搜索引擎一般干嘛呢？谷歌搜索引擎作为黑客必用的一个浏览器，自然会有很多比较厉害的特点。让我们来探讨一下谷歌搜索引擎到底能干些啥。

了解谷歌高级语法
上一篇内容中，我们初步探索了搜索引擎的语法。这一篇，我们同样以例子的方式来深入了解。
（1）、排列组合我们的关键词
利用“|”分隔关键词，表达或者的含义
例子：
利用搜索引擎进行资源搜集第二课时

这样就可以搜索出包含“身份证号”或者包含“学号”的信息。

利用空格或者点号(“.”)分隔关键词，表达和的含义
例子：
利用搜索引擎进行资源搜集第二课时

搜索出来的内容是既包含身份证号有包含学号的内容。
（2）、需要掌握的高级操作符
注意：高级操作符和关键词之间需要加上英文冒号（":”）。英文冒号和中文冒号的区别可以但很难用肉眼区别出来。所以要确保在英文输入状态下打这个冒号。
使用site关键字定位网址
Site关键字在入门篇中，我们详细使用过。这里不再赘述。
例子：
利用搜索引擎进行资源搜集第二课时

使用intitle查询在标签中的关键字
利用搜索引擎进行资源搜集第二课时
那么什么是title呢？

用红色框框住的就是title了。一般来说，这个title都指明了当前这个页面是什么功能，所以如果需要找特定功能的东西，就可以使用Intitle。

使用inurl关键字表示在url（链接）中查找关键词
那么，什么是url呢？以上面的图片为例子：
利用搜索引擎进行资源搜集第二课时
这个就是url。那我们来验证一下这个关键字的有效性吧。

这个例子我使用了两个关键字，限定了在某个网址下搜索url里面包含login的链接。可以看见，关键词的组合是通过空格隔开的方式，与上面说的排列组合我们的关键词类似。

使用intext表达在网页内容里查找字符串
那么，什么是网页内容呢？就是整个网站里面讲的是什么，就好比写一篇文章的主体内容。
例子：
利用搜索引擎进行资源搜集第二课时
利用上面四个关键字及其排列组合，我们已经可以很精确地对我们的关键词进行查找了。现在，再来讨论下不是很常用的关键字。
使用FileType搜索指定类型的文件
例子：

使用stocks搜索某个公司的股票信息
利用搜索引擎进行资源搜集第二课时
当然，谷歌高级语法中，这些关键字算是九牛一毛，但是已经可以满足我们日常的生活了。如果有想深入了解的朋友，我可以推荐一本书，叫《Google Hacking 技术手册》。

利用谷歌进行科学上网
在工作和学习中，我们往往需要利用科学上网去查阅比较新的资料，加上谷歌镜像站本身的不稳定，所以，备一个紧急科学上网的方法也是必要的。我把我科学上网的方法分享给大家。
我把插件和操作指南放到了压缩包里，大家下载之后照着里面的教程做就好。

链接：https://pan.baidu.com/s/1BY1dBXu_i_wTHgcXWoiWWQ
提取码：y3zu

失效联系我补
因为本插件是付费的，为避免广告嫌疑，我也不推荐大家使用这个插件。下面来说说安装流程。百度网盘下载好压缩包后解压，然后打开是这个样子：
利用搜索引擎进行资源搜集第二课时
然后打开你的chrome浏览器，在浏览器中输入扩展程序的网址：chrome://extensions/
然后把

这个文件直接拖到页面中即可。安装完成之后需要注册，然后登陆就可以了。

一共有三种模式，可根据个人喜好调整。

利用谷歌浏览器搜索进阶实际上内容已经讨论完了。但是我开头提出的问题，搜索引擎能做的，远不止这些。我们可以利用浏览器来提取网站接口，进而为我们搜集资源提供便利。

利用浏览器分析网站接口
先来说说什么是网站接口。一个网站，实际上分为前端和后端，前端一般主要做数据渲染，即将一堆堆难以理解的数据以网页的形式展示出来，那么后端，就是提供这些数据的。而提供的方式，就是利用的接口的方式。今天，我就以链家为例，来分析接口。由于分析接口我用firefox用得比较多，所以这里用firefox进行演示
首先，打开链家首页，然后点击 alt键，选择工具->web开发者->Web控制台
利用搜索引擎进行资源搜集第二课时
刷新网站，可以发现，前端向后端发起了很多请求，点开其中一个：

这里的https://cq.lianjia.com/site/getRecommendResblockInfo/是请求地址，get是请求方法

选择响应按钮，可以发现后端给前端传来了很多数据。这时我们就抓到了一个接口。但是这个接口是否真的有用呢，还得看具体自己收集什么资源。这里只是给大家介绍有这么一种技术。如果有想深入了解的小伙伴，可以关注本公众号后面的文章。

简单了解爬虫
首先需要说明的一点是，爬虫只能获取公开共享的东西。
爬虫又叫网络机器人，为啥叫这个名字呢，因为爬虫可以替代人做大量重复的操作。以http://www.java1234.com/为例，这个网站收集了各种各样的百度网盘链接，但是每个页面只有一个网盘链接，而且他们以类似的结构放在每个页面几乎相同的位置上。如果每个链接都人为的一个一个点，然后一个一个保存百度网盘的链接，是否过于繁琐了呢。这时候，如果利用爬虫，合理的编写代码，就可以实现自动收集百度网盘链接资源的功能。
爬虫一般是程序开发人员用代码对人工过程进行模拟实现的，同时利用线程池技术能大大提高工作效率。从程序开发的角度来说，这对于没有学过编程的同学来说难度就有点大了。但这并不意味者非编程人员就使用不了爬虫。网上也有一些爬虫软件，只不过这些软件往往自定义的能力不行，无法满足爬虫使用者真正的需求。所以，对于看到这里的同学，我还是建议大家学学python这门编程语言，用来写爬虫简单易上手。

谢谢观看，愿对你有帮助。

利用搜索引擎进行资源搜集第二课时

相关推荐