数据产品-规则型和挖掘型标签构建案例
数据产品经理在构建数据标签的过程中,最为常见的是构建统计性的标签,其很大原因是统计型标签的可解释型比较强,开发周期很短,容易根据业务需要进行调整。而对于规则型和挖掘型标签,其构建周期较长,而且可解释性较差,很难真正定义一个挖掘型标签是绝对的可应用型。但作为数据产品经理,需要知晓这两种类型标签的构建过程,也需要了解一些统计学理论和算法理论,才能够在需要之时构建对应的标签
一、规则型-用户生命周期分组
1、背景说明
通过生命周期的判定,对不同阶段用户采取不同运营手段,结合后续用户中心的流失预警建立,减少用户流失,及时挽回沉默、流失用户,并根据数据分析结果形成通用规则型标签
2、用户分组划分核心
五个分组:新手期账号、新增账号流失、活跃账号、沉默账号、活跃账号流失
①活跃用户:连续多久未上线可以判定流失?
②新用户:注册后多久未上线可以判定当日流失?
3、流失划分核心点
①“新用户流失界线”:新用户注册后连续m天未上线——找到m值
②“活跃用户流失界线”:活跃用户连续n天未上线-----找到n值
注:当新用户在注册后m天内有过上线,即切换活跃用户流失界线的口径来计算流失
4、根据二八原则寻找分界点
①新用户流失界限分界点
A、注册当天为第0天
B、样本选取T日的新注册账号;T范围限定在7.1-10.30期间,样本量为7017235
C、连续Y天未上线新用户的回流率=注册后连续Y天未上线的用户在T+Y+1日及之后(截止至11.27)有过回流的人数/连续Y天未上线的新用户总数
结论:根据二八原则,找到回流率20%的分界点对应的天数值作为新用户流失界限的分界点为6天,即新用户注册后,第1-6天均未上线视为当日流失用户
②活跃用户流失界限分界点
A、样本选取距离11.27日,182天(即5.28)之前的活跃用户;样本量为5180595
B、最后一次活跃间隔天数=活跃用户的最后一次活跃时间-上一次活跃时间
结论:根据二八原则,找到80%人数占比的分界点为活跃流失用户的分界点为27天,再找有百分之50%会再次活跃的人群定义为活跃用户,找到分界点为3天。即连续3天至27天未上线的用户,视为沉默用户;连续27天以上未上线的活跃用户,有80%的可能性不会再上线,视为流失用户
5、用户生命周期分层
说明:以此分层信息,可以构建用户生命周期标签,基于不同的数值区间划分对应的分组信息
二、挖掘型-账号流失概率
1、账号流失概率
基于用户生命周期分组进行预测
说明:
A、新增账号流失&活跃账号流失:流失概率100%
B、新手期账号属于新账号
C、活跃账号、沉默账号属于老账号
计算规则:计算每一个账号截至计算时的流失概率
2、判断过程
使用不同的模型和特征对新账号和老账号进行流失概率判定
A、特征选取:主要是用户的登录上线情况特征,基于算法训练提取主要影响特征因素
B、验收方法:使用测试集,比较其【流失概率】和【实际是否流失】的AUC (Area Under Curve) 值
C、验收标准:AUC值的分布(具有通用的行业取值分层值,至少需要大于0.5)
AUC值解释(百度百科)
AUC = 1,是完美分类器
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果较低,但用于预测股票已经很不错了
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测
3、模型部署
算法训练过程的细节不太理解,感兴趣的可以自己多去了解。将模型训练完成后进行部署定期计算并进行增量数据存储,记录每天对应用户数值情况,形成挖掘型标签
三、挖掘型-用户内容偏好
用户偏好内容(TF-IDF):构建用户的内容分类的偏好情况标签
1、结果1:无场景权重
A、对内容单元互动行为内容分类TF-IDF算法求出每个用户身上内容分类标签的无场景权重
B、内容分类标签的综合权重基于以下数据,求出每个用户身上的内容分类标签的综合权重:- 内容分类标签的无场景权重
a) 行为次数 (根据行为数据统计得出)
b) 行为类型权重 (自定义)
c) 时间衰减函数 (暂用牛顿冷却定律)
基于相关系数矩阵的内容分类标签相关性举个例子:用户1身上打上了5个A标签、2个B标签、1个C标签;用户2身上打上了4个A标签,3个B标签;用户3身上打上了4个C标签、1个D标签。用个图象表示一下:那么同时打上A、B标签的用户有两个人,这就说明AB之间可能存在某种相关性
d) 用户:以账号 (User ID)为统计口径
e) 标签:内容单元的分类标签
我们用- w(P, T) 表示一个标签T被用于标记用户P的次数
a) TF(P, T) 表示这个标记次数在用户P所有标签中所占的比重
b) IDF(P, T) 表示标签T在全部标签中的稀缺程度,即这个标签的出现几率
用户P对于标签T的无场景权重 = TF(P, T) * IDF(P, T)
2、结果2:综合权重
a) “TF-IDF计算得到每个用户身上的标签权重”即上一步的无场景权重
b) “行为次数”由行为数据统计得出(行为权重更多的是基于业务判断,对动作的大小进行权重分数赋予,不用业务场景给予权重不同,根据实际业务情况确定)
牛顿冷却定律的数学模型
F(t) = 初始温度 × exp( -冷却系数 × 间隔的时间 )
补充(基于实际的业务去定义冷却系数的计算):指定14天后降为初始值的0.5,即 __ 0.5=1×exp(-__α×14)
3、应用说明:
通过TF-IDF算法,结合时间衰减因素后,得出该用户最喜欢的 TopN 风格分类。
举例:
选择“Top 3 包含 古风、校园、恋爱”表示“古风 或 校园 或 恋爱 中任意一个属于该用户最喜欢的前3个风格”
选择“Top 1 包含 古风、校园、恋爱”表示“古风 或 校园 或 恋爱 中任意一个属于该用户最喜欢的第1个风格”
四、规则型-影响力标签
(绝对排名、百分比排位,定位出个人的影响力)
1、绝对排名
将用户按单篇发布频率从大到小排列,排名a表示该用户的单篇发布频率排在第a位。允许并列,并列的下一名需跳过并列人数。如3人并列第1,则无第2、3名,下一位是第4名
2、百分比排位
表示该用户的单篇发布频率高于b%的样本,类似四分位数,可参考 Excel “PERCENTRANK”函数