网络爬虫的作用和简单分类

1.4.1知识概述

一般会用来做数据分析，先通过对数据的清洗，抽取，转换，将数据做成标准化的数据，然后进行数据分析和挖掘，得到数据的商业价值。

网络爬虫的作用和简单分类

数据分为内部数据和外部数据

在互联网公司，不管内部数据还是外部数据，其实都是为了获取用户相关的数据。

拿到用户的行为数据之后，会分析用户。

比如说电商类网站就是为推荐商品，搜索类的网站为了精准营销(家具类) 广告联盟。

网络爬虫的作用和简单分类

公司内部数据

业务数据，公司使用BI（Business Intelligence）、CRM系统、ERP系统、邮件系统等产生的数据；

财务数据，其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据；

用户数据，无论是网站、APP还是游戏，用户注册都会填写邮箱、电话、身份证号码等数据，这些数据其实非常有价值，此外还要加上用户使用公司产品留下的行为数据。

历史数据，公司沉淀下来的其他各种数据。

外部数据

社交网站数据，包括微信、微博、人人网、Twitter、Facebook、LinkedIn等社交媒体上的数据。

说明：社交数据部分是可以爬取的，另外一部分是需要运营方授权的。

线下采集数据，包括Wifi热点数据、地图数据等。

说明：这一块目前做的公司比较少，但同时也比较有价值。

*开放数据，包括企业征信数据、企业注册数据、法院公示数据、公共交通数据等。

说明：如果你想要找的话，可到对应*网站下载。

智能设备数据，包括智能设备、传感器数据。

说明：你知道吗？一部智能手机，至少拥有8个传感设备。

网络爬虫数据，包括互联网上所有可以爬回的数据，文字、视频、图片其实也是数据，而且是非结构化数据。

企业交易数据，包括商家流水数据、支付宝交易数据、信用卡消费数据等等。

说明：目前这一部分数据是最难获取的，因为数据就是宝贵的资产。

企业开放数据，比如微博开放了商业数据API，腾讯开放了腾讯云分析SDK上报的应用数据，高德地图开放了LBS数据等等。

说明：如果想找更多的数据API，我推荐你去数据堂、聚合数据这两家网站上看一下，上面有大量的API接口。

其它数据，比如天气数据、交通数据、人口流动数据、位置数据等等。

说明：只有想不到没有弄不到。

额外扩展

大数据就是整合完公司内部外部数据，进行大数据存储，然后通过清洗，标注、去重、去噪、关联等过程可以将数据进行结构化，也可以进行大数据挖掘和数据分析，再以数据可视化呈现结果，打通数据孤岛形成数据闭环，将数据转换成“石油”和“生产资料”，最后应用到我们日常的生活、学习和工作中去。

爬虫与搜索系统的关系

网络爬虫的作用和简单分类

搜索系统的数据是爬虫爬取过来？不一定。

搜索系统可以简单的分为两类，通用搜索，站内搜索。

通用搜索：像百度，谷歌会爬取互联网上所有的数据

站内搜索：只需要业务系统的数据。

垂直搜索：行业数据和自己的数据。

总结：搜索一定会包含爬虫（除站内搜索外），爬虫爬取的数据不一定是为搜索服务。除了搜索功能以外，爬虫爬取的数据主要用来做数据分析。

爬虫的简单分类

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：

l 通用网络爬虫（General Purpose Web Crawler）

l 聚焦网络爬虫（Focused Web Crawler）

l 增量式网络爬虫（Incremental Web Crawler）

l 深层网络爬虫（Deep Web Crawler）

实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

1.4.2视频详情

网络爬虫的作用和简单分类

1.4.3总结与补充

无

1.4.4 课堂提问与练习

无

1.4.5习题答案

无

网络爬虫的作用和简单分类

相关推荐