数据分析师之所需要了解的产品系列知识(十)——如何驱动参与(3):信息流排名驱动参与

阅读之前看这里????:博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。

博主之前关于产品和数据的的文章::

数据分析师之所需要了解的产品系列知识(十)——如何驱动参与(1):内容的生产和共享
数据分析师之所需要了解的产品系列知识(十)——如何驱动参与(2):相关库存驱动参与度

数据分析师之所需要了解的产品系列知识(十)——如何驱动参与(3):信息流排名驱动参与
本系列以前的文章涵盖内容的生产和共享,连接和库存。这篇文章强调了信息流排名的考虑因素和关键指标。排名很重要,因为它将库存与消费和反馈联系起来。
数据分析师之所需要了解的产品系列知识(十)——如何驱动参与(3):信息流排名驱动参与

一、信息流排名

信息流的目的是突出显示用户发现最相关的帖子。这主要是通过确定职位显示顺序的排名来实现的,而这些排名至少部分是由公司的战略和使命决定的。为了在信息流排名系统上正确执行,你必须了解每个用户可用的总帖子(库存),收集有关用户及其发布内容的信息(信号),然后使用这些信号来预测用户行为(预测),并确定每个帖子对每个用户的重要性(相关性)。帖子的相关性得分将通知它在给定用户的提要中出现的位置。

因此,有效的排名系统必须包括一种预测算法,该算法可以为每个用户的分配数字相关性分数—例如,一个用户是否更可能喜欢并发现一个来自他们童年的帖子,而不是一个来自他们关注的名人的帖子。

二、库存

用户的库存包括他们有资格查看的所有来自其关注的所有朋友和发布者的帖子。对于“库存受限”或库存很少的用户,排名是不必要的,因为他们有机会消耗所有可用内容(无论是否利用此机会)。但是,关注众多朋友,名人和其他实体的用户将拥有更多的库存—每天可能有几千个帖子-并且可能无法全部消耗掉。对于这些用户,通过相关性得分进行排名至关重要。

库存的关键指标

  • 可用库存量
  • 连接数
  • 可用库存消耗
  • 消耗的帖子数
  • 库存受限的用户百分比

三、信号

信号包含有关用户的所有可用信息及其在内容方面的偏好,并且可以帮助预测用户是否会参与给定的帖子。以下问题是此类信号的示例。但是请注意,该列表远非全面,下面的类别包括数百种信号。产品团队应研究所有可能促进其产品参与度的信号。

谁发布了内容?

一组信号包括有关内容生产者的信息,例如在Facebook上,它是来自用户的朋友还是页面或组?用户以前与帖子作者互动的次数越多(通过喜欢,评论,标签,点击,个人资料或页面访问等操作),他们与帖子互动的可能性就越大。

  • 朋友:朋友有多近?他们最近与用户成为朋友了吗?朋友是一个“需要帮助的”用户吗?(即,他们的连接数是否很少)?
  • 页面:用户在页面中显示了多少兴趣?他们最近是如何追随和喜欢它的?他们是否已将页面设置更改为“先查看”或“获取通知”?如果该页面是由新闻机构运营的,那么该机构是否在用户本地?
  • 小组:用户与小组的互动程度如何?他们上一次与之互动的时间是什么,他们采取了什么行动?

这是什么类型的内容?

Facebook的排名算法向用户显示了他们通常会涉及的更多内容类型-例如,如果你倾向于喜欢照片或在照片上发表评论而不是状态更新,你会看到更多前者的内容类型。

  • 原创与非原创:内容是来自用户的朋友或家人的私人帖子,还是链接或转发的内容?在Facebook的信息流中,原始内容更有可能出现在顶部或顶部附近。
  • 格式:发布内容是视频,文字,图像还是组合?文字有多长?图像的质量是什么?视频的长度?
  • 分类法:内容是社交的吗?信息性的?有趣吗?沟通还是协作?被认为有趣和有价值的东西将因人而异。
  • 其他分类:内容是点击诱饵还是虚假新闻?是“垃圾邮件”吗?在Facebook上,此类帖子可能被分配较低的排名,因此不太可能被看到。

内容何时发布?

帖子越新,用户越有可能看到它—特别是如果他们经常与你的产品互动。对于访问频率较低的用户,信息流可能会优先考虑“亮点”,例如重大生活事件和重大新闻报道,而不是最新帖子。

  • 这篇文章是最近的吗?
  • 它是重复的(或真实的)帖子吗?

内容获得了什么样的参与?

用户参与帖子的次数越多,无论是隐式(花费时间)还是显式(喜欢和评论等操作),他们就越有可能发现它有价值,而其他用户也越有可能认为它有价值,因此,信息流排名通常会优先考虑“病毒性”或参与度高的帖子。

  • 这篇文章获得什么样的参与?是特定的反馈(喜欢,评论,反应,荣誉等),还是花在帖子上或徘徊的时间?如果是评论,评论要持续多长时间-参与是否构成真正的对话?
  • 该帖子的参与度增长了多快?
  • 谁在与该帖子互动,是否激励他们制作自己的内容(例如,通过转发)?
  • 哪种类型的互动以及来自哪些用户的互动会激励制作人再次发布信息?
  • 参与度是高于还是低于其他帖子(考虑所有其他变量)?

我们对用户了解什么?

每个用户基于性别,年龄,使用的设备类型,连接性等因素进行不同的互动。因此,为给定用户提供正确的帖子时,考虑此人口统计信息很有用。例如,在互联网连接薄弱的旧手机上查看自己的信息流的用户,如果被提供高带宽视频,就不太可能有很好的体验。

  • 用户的人口统计信息是什么?
  • 他们的连接性是什么?
  • 用户拥有什么设备?这些设备的特征(内存,存储,速度)是什么?

四、预测

一旦捕获到信号上的数据,就可以更好地预测用户可能会做什么。由于用户的过去行为是他们未来行为的预测,因此机器学习模型不仅可以在一定程度上确定给定用户是否喜欢某个帖子,而且还可以判断用户是否会单击,评论,共享,隐藏或隐藏该帖子。甚至将其标记为垃圾邮件。综合评估,这些结果的可能性可以产生特定于每个后用户对的单个相关性得分,代表用户可能对帖子的兴趣程度。当平台清单中的每个帖子都具有这样的分数时,你的排序算法可以按照它们在每个用户面前出现的顺序放置它们。

由于多种原因,这些预测具有挑战性。诸如赞和评论之类的参与活动只是用户真实感受的粗略代表-例如,他们可能喜欢自己并不真正“喜欢”的帖子(例如某人的死亡新闻),然后点击他们随后发表的帖子找出不满意的内容,或纯粹隐藏帖子以“管理其收件箱”。同样,遵循某些信号可以使你针对病毒性而不是质量优化—为用户提供稳定的“糖果”饮食,这最终可能会停止使用他们的产品。

因此,务必谨慎确定哪些预测将为你的相关性评分提供依据,以及在多大程度上进行预测。选择正确的组合与科学一样是艺术

五、关联

每个后用户对的相关性得分不仅应反映来自你的信号中得出的预测,而且还应反映你的信息流的优化功能。你可以根据公司的目标和使命,决定针对任何数量的指标进行优化,例如花费的时间,会话数或点击率。例如,Facebook的排名是由其“ 信息流”值告知的,该值将朋友和家人置于明星和页面之上。还可以利用优化来支持特定策略;例如,你可以选择突出显示新产品而不是旧产品,以鼓励它们的增长。

你的优化函数应为每个预测分配权重。在下面的示例中,P(like)是给定用户喜欢给定帖子的可能性,而a,b,c,d和e是分配给每个预测的权重:
数据分析师之所需要了解的产品系列知识(十)——如何驱动参与(3):信息流排名驱动参与
可以根据你要移动的指标(例如花费的时间),使用测试,启发式方法,定性方法等确定每个权重。你也可以为特定类型的用户选择使用各种权重。

六、产品注意事项

信息流游戏就是其中一个折衷。你应该显示更多的视频还是文字?重视评论超过喜欢,还是重视内容生产而不是内容消费?了解和制定这些折衷办法的比例很有帮助(例如,观看Y数量视频的用户制作自己的内容的可能性要低X%)。

探索与利用

你应该优化(利用)你对用户行为的了解,还是尝试了解更多(探索)你不了解的内容?也就是说,您应该在多大程度上强调他们可能会重视的帖子类型,以及你应该在多大程度上突出他们没有尝试过的帖子类型?这是所有排名算法的基本问题,没有简单的答案。在大量库存的情况下,探索-利用权衡尤其具有挑战性;当库存过多但信号不足,无法以相等的预测能力对所有帖子进行排名时。在这些情况下,利用可能会导致长期问题。有原则的方法很重要;否则,你可能会针对无法真正使参与最大化的因素进行优化。例如,通过进行用户体验调查来了解用户是否对当前显示的内容越来越厌倦,是在用户级别确定利用和探索之间的平衡的一种好方法。

数据不足

无论你如何精心构造算法,总会有一些你没有的数据。用户选择早餐的方式如何影响他们想要阅读的内容?他们是因为不喜欢而隐藏了帖子,还是仅仅因为读完了而隐藏了帖子?一条积极的评论帖子是否表明人们喜欢一篇帖子,或者说它让他们生气了?目标不仅是对数据建模,而且还对数据中表现出的人们的行为进行建模,而且人们过于复杂,任何算法都无法对其进行全面建模。产品团队应尝试获取其它相关数据以推断人们的兴趣。

没有一个优化功能是完美的

类似地,预测算法被设计成对给定的指标进行优化。但是,这样的指标永远无法完全抓住公司目标和使命的精神,因此预测和相关性分数永远不会完全足够。人们可以在美国公开赛上运行一种预测算法,并为每位玩家分配获胜的可能性,但是在“信息流”环境中,“获胜”并不是离散的,可衡量的结果。排名算法可以帮助预测用户是否以及如何与帖子互动,但不能确定该互动是否真正满足你的任务。

病毒性和点击诱饵

信息流环境通常倾向于任何类型的交互作用,特别是高速交互作用。因此,“点击诱饵”帖子通常会比其他帖子获得更多的分发。你的产品团队应寻找有创意的方法来抑制这种影响。例如,可以识别出在点击诱饵标题中常用的短语,而在其他标题中则不使用;也可以寻找来自同一创作者的频繁滥用,然后采取纠正措施。

长期与短期

理想情况下,应该长期优化你的产品,但是大多数算法都是短期优化的。例如,通知起初可能会使用户更频繁地返回其信息流中,但最终使这些用户感到厌烦,并使他们不太可能返回你的产品。虽然长期指标通常更难以衡量和优化,但它们对于理解产品决策的最终影响非常有用。利用这样的洞察力来扩大其参与度可带来长期利益的帖子(例如,用户好友的结婚照)。

用户体验指标

满意度调查,网络推广分数和定性反馈对于驱动策略是有用的,但很难对其进行优化。主要原因是该数据通常是稀疏的,不能实时用于产品优化,不能代表整个群体(并且需要进一步的偏差校正等)。因此,寻找与你产品中的调查类型指标相关的可衡量代理指标。

内容分级

针对某些指标进行优化将有利于某些类型的内容,例如,针对所花费的时间进行优化将导致对视频帖子的偏向,而视频帖子通常比文本帖子花费更长的时间。相反,优化浏览的帖子数量将强调文本。为了解决这个问题,请使用有效的方法对数据进行标准化以纠正偏差。另外,从战略角度看待你的产品—你希望产品的未来是视频还是文字?

七、总结

  • 你的库存,信号和预测能力越强,平台的帖子就越相关。考虑如何优化这些组件,以提高用户的体验。
  • 目标不是对数据建模,而是对数据中表现出的人们的行为进行建模,而且人们对于任何算法都无法完全建模。
  • 随着时间的推移,你的平台以正确的顺序向正确的用户推荐正确的故事的能力将随着时间的推移而提高。你的库存,信号和预测能力越大,弄的帖子就会越相关。作为产品团队,请考虑可以改进每个不同组件的方法。

——————————————————————————————————————————————————
博主码字不易,大家关注点个赞转发再走呗 ,您的三连是激发我创作的源动力^ - ^
数据分析师之所需要了解的产品系列知识(十)——如何驱动参与(3):信息流排名驱动参与
参考:
红杉资本数据科学团队研究成果