《数据挖掘与数据化运营实战》(第13章)
《数据挖掘与数据化运营实战》(第13章)
13 漏斗模型和路径分析
在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的,那就是漏斗模型和路径分析的应用。
- 漏斗模型通常是对用户在网页浏览中一些关键节点的转化程度所进行的描述,比如从浏览到实际购买产品都需要经历三个步骤:浏览商品、将商品加入到购物车、将购物车的东西提交到订单,直到订单完成在线支付,上面的三个步骤走下来,买家人数越来越少,这个过程就是漏斗模型,漏斗模型的主要分析目的是针对网站运营过程中的各个关键环节进行分析,然后针对转换率低的环节进行纠正。
- 路径分析通常是指对用户的每一个网络行为进行精细跟踪和记录,并在此基础上通过分析、挖掘得到用户的详细网络行为路径特点、每一步的转化特点、每一步的来源和去向,从而帮助互联网企业分析用户的网络行为等。
从严格意义上来说,漏斗模型是路径分析的特殊情况,是针对少数关键节点的路径分析。
13.1 网络日志和布点
用户在网上进行浏览时的每一步都会被记录下来,从而形成海量的日志数据。互联网日志的数据体系分为日志布点、日志采集、日志解析和日志分析4个部分。
- 日志布点
指在页面上安排记录关键用户行为的小程序,用户按照预设规则对网页进行访问的时候,布点的规则程序就会将用户相关的数据发送到一个指定的服务器,从而达到日志采集的目的。包括页面级布点(应用范围最广,该类布点会覆盖网站的所有页面,其内容包括:IP地址、用户名、Cookie相关信息及浏览器类型)、点击级布点(通常会在用户点击某个链接、按钮、筛选框等特定事件时触发)、追踪日志布点(当某一个特定的页面有很多来源是,为了清楚的情分不同的来源,就需要用到追踪日志布点)。 - 日志采集
进行日志采集,通常会设定专门的日志采集服务器,主要目的是大流量多线程地将日志记录下来。 - 日志解析
由于日志数据是不同于通常数据源的非结构化数据,其主要目的是提高读写效率,因此日志解析的目的就是讲非结构化数据转化成为结构化数据。 - 日志分析
日志分析的主要内容包括日常流量监控(PV、UV)、来源去向分析及路径分析。
13.2 漏斗模型与路径分析的主要区别与联系
漏斗模型是路径分析的特殊形式,是专门针对关键环节进行的路径分析。
漏斗模型与路径分析的主要区别:
- 侧重点不同,漏斗模型更多、更主要用于网站和产品的运营监控和管理。
- 两者思考的方式和粒度不同,漏斗模型更多时候要经过抽象的过程来搭建漏斗的每一个环节,漏斗中的每个环节更多时候是抽象出来的,而不一定是完全按照原始的数据直接放进漏斗中的,而路径分析更多的时候是就事论事,不需要经过抽象、转化、整合这些过程。
- 分析的思维方向有别,漏斗模型的思维方式通常是逆向的,即先确定要分析的关键环节,然后抽取相应的数据,计算其转化率。
- 分析技术有差别,漏斗模型的分析技术更直观、更直接、更容易理解,就是根据两个关键环节的先后顺序,计算出从头到尾的转化率即可。
13.3 漏斗模型的主要应用场景
- 运营过程的监控和运营效率的分析和完善
只要有流程、有转化,就一定会采用漏斗模型作为其中的一种手段来加以监控、分析和管理。 - 用户关键路径分析
- 产品优化
13.4 路径分析的主要应用场景
漏斗模型可以看做是路径分析的特殊形式,相比而言,路径分析更加全面、更加丰富、更加基础。
- 用户典型、频繁的路径模式识别
- 用户行为特征的识别
- 网站产品设计和优化的依据和参考
- 网站运营和产品运营的过程监控关于管理
13.5 路径分析的主要算法
- 社会网络分析方法(Social Network Analysis)
社会网络分析,也叫链接分析,在社会网络分析方法中,最常见最成熟的一种方法就是中心性分析方法,中心性是对于社会关系网中参与者的著名成都进行度量的标准,与网络搜索和超链接分析有非常紧密的关系。 - 基于序列的关联分析(Sequence Analysis)
基于序列的关联分析,又称序列分析,这种分析方法时在关联分析的基础上,进一步考虑了关联品之间的先后顺序,即只分析先后顺序的关联关系。 - 最朴素的遍历方法
最朴素的遍历方法,因为最直观、最直接、最容易让人理解,把某个页面的所有来源以及相应的流量大小整理出来,同时把浏览该页面的下一个页面的所有去向和相应的流量整理出来。