点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Edwin Chen

编译：ronghuaiyang

导读

倾向模型的使用，如何在无法进行A/B测试的时候进行因果推断，如何找到用户组增长的驱动力。

想象一下，你刚刚开始在一家新公司工作。你最近看了《僵尸世界大战》(World War Z)，所以你心存怀疑，考虑到你前两家初创公司都是因为缺乏数据而失败，你对每件事都格外挑剔。

首先考虑销售团队的影响。他们为公司创造了多少额外收入？你见过的销售人员说，他们谈过的超过90%的潜在客户最终都购买了公司的产品 —— 但是，你想知道，这些潜在客户中有多少人最终会转换为客户？

看看日志，你会发现一些有趣的事情：上周是黑客周，salesforce有一半的人休息了，但转化率仍然保持不变。

突然，你的一个同事来到你的办公桌前。他拿了一杯特卖饮料，想让你喝一口。它看起来很恶心，所以你问它有什么好处，他回答说他几个月来一直喝它的朋友刚刚跑了马拉松！哦，他们刚开始跑步吗？不，他们去年也参加了马拉松！

因果推断

因果关系非常重要，但通常很难建立。那些自己选择服用新药的病人是因为药物起作用而变得更好吗？或者他们本来就会变得更好？你的销售团队是否真的有效，或者他们只是在与那些已经准备转化的客户进行沟通？特卖(或者你公司价值百万美元的广告活动)真的值得你花时间吗？

在一个理想的世界里，我们可以随时进行实验 —— 这是衡量因果关系的黄金标准。然而，在现实世界中，我们不能。给某些病人安慰剂或危险的未经试验的药物会引起伦理上的不安。管理层可能不愿意随机分配销售给潜在的短期收入损失，而一个以佣金为奖金基础的团队可能也会反对这种想法。

在没有A/B测试的情况下，我们如何理解因果提升？这就是倾向模型，或其他因果推断的技术，起作用的地方。

倾向模型

假设我们想用倾向模型技术来模拟喝特卖饮料的效果。为了解释这个想法，让我们从一个思维实验开始。想象一下布拉德·皮特有一个双胞胎兄弟，在各个方面都无法区分：布拉德1和布拉德2在同一时间起床，吃同样的食物，锻炼同样的量，等等。有一天，布拉德1号碰巧收到了最后一批特卖饮料，而布拉德2号没有，所以只有布拉德1号开始在他的饮食中加入特卖饮料。在这种情况下，双胞胎之间行为的任何后续差异都是特卖饮料的影响。

在现实世界中，一种评估特卖饮料对健康影响的方法如下：

为每一个喝特卖饮料的人，找一个不喝特卖饮料的，并且尽可能和他相似的人。例如，我们可能会把喝特卖饮料的Jay-Z和不喝特卖饮料的Kanye相匹配，把喝特卖饮料的Natalie Portman和不喝特卖饮料的Keira Knightley相匹配，把喝特卖饮料的JK罗琳和不喝特卖饮料的Stephenie Meyer相匹配。
我们将特卖饮料的效果衡量定为每一对双胞胎之间的差异。

然而，在实际生活中，要找到长相接近的两个人是极其困难的。如果Jay-Z平均多睡一小时，那么Jay-Z真的能和Kanye一样吗？Jonas Brothers和One Direction怎么样？

那么，倾向建模就是对这一双胞胎匹配过程的简化。我们不是根据我们拥有的所有变量来配对，而是根据一个单一的数字来匹配所有用户，即他们开始喝特卖饮料的可能性(“倾向”)。更详细地说，这里是如何建立一个倾向模型。

首先，选择哪些变量作为特征。(例如：人们吃什么，什么时候睡觉，住在哪里等等。)
接下来，基于这些变量建立一个概率模型(比如逻辑回归)来预测用户是否会开始饮用特卖饮料。例如，我们的训练集可能包括一组人，其中一些人在2014年3月的第一周订购了特卖饮料，我们会训练分类器建模哪些用户成为特卖饮料用户。
该模型对用户将开始饮用特卖饮料的概率估计称为倾向评分。
形成一定数量的桶，假设总共有10个桶(一个桶的用户具有0.0 - 0.1的饮用倾向，第二个桶的用户具有0.1 - 0.2的饮用倾向，以此类推)，并将人放入每个桶中。
最后，比较每个桶内的喝特卖饮料的人和不喝特卖饮料的人(比如，通过测量他们随后的体力活动、体重或其他健康指标)来估计特卖饮料的因果效应。

例如，这是喝特卖饮料和不喝特卖饮料年龄的假设分布。我们发现喝的人往往年龄更大一些，这一令人困惑的事实是我们不能简单地进行相关分析的原因之一。

倾向性模型，因果推断以及用户增长的驱动力发现

在训练一个模型来估计喝特卖饮料的倾向并将用户分组到倾向桶之后，这可能是一个关于Soylent对一个人每周跑步里程影响的图表。

倾向性模型，因果推断以及用户增长的驱动力发现

在上面的(假设)图表中，每一行代表人们的倾向桶，暴露周表示3月的第一周，实验组收到了他们的特卖饮料发货。我们看到在那周之前，两组人的跟踪都很好。然而，在实验组(特卖饮料饮用者)开始他们的计划后，他们每周跑步的里程增加了，这形成了我们对饮料的因果效应的估计。

因果推断的其他方法

当然，对观察数据进行因果推论还有许多其他方法。我这里介绍我最喜欢的两个。(我最初是为了回答Quora上的一个问题而写这篇文章的，所以我才从那里举出了我的例子。)

不连续回归

Quora最近开始在其Top Writers的个人资料上显示了徽章，所以假设我们想要了解这个功能的效果。(假设既然该特性已经启动，就不可能运行A/B测试。)具体来说，徽章本身是否会让用户获得更多关注者？

为了简单起见，让我们假设这个徽章是给2013年获得至少5000个好评的所有用户的。不连续回归设计背后的想法是得到那些勉强获得Top Writers徽章的用户(获得5000个好评)和那些差点就可以获得徽章的人(比如，获得4999个好评的人)之间的区别。这两者之间或多或少是随机的，所以我们可以使用这个阈值来估计因果效应。

例如，在下面这个假想的图表中，5000个好评的不连续性表明，一个Top Writers徽章平均会带来大约100多个关注者。

倾向性模型，因果推断以及用户增长的驱动力发现

自然实验

然而，理解 Top Writer 徽章的作用是一个相当无趣的问题。(这只是一个简单的例子。)一个更深、更根本的问题是：当用户发现他们喜欢的新作者时，会发生什么？作者是否会鼓励他们写一些自己的内容，探索更多相同的主题，并通过管理引导他们与网站更多地接触？换句话说，与一个伟大的“用户”的联系，相对于阅读随机的、伟大的“帖子”，有多重要？

我在谷歌的时候研究过一个类似的问题，所以我将在这里描述其中的一些工作，而不是虚构一个Quora案例研究。假设我们想知道如果我们能够将用户匹配到完美的YouTube频道会发生什么。最终的推荐值多少钱？

爱上一个新频道，是否会让用户更愿意参与，而不仅仅是在这个频道上活动，或许是因为用户回到YouTube是为了这个新频道，并留下来看更多的视频？例如，在电视世界里，也许很多人星期天晚上会呆在家里，专门看最新一集的 Real Housewives，等节目结束后，他们还会在电视上浏览，进行更多的娱乐。
爱上一个新频道只会增加该频道的活动吗？(加性效果)
新的频道会取代YouTube上现有的互动吗？毕竟，用户在站点上的时间是有限的。(中性效果）
完美的频道真的能让用户在网站上花更少的时间吗？因为一旦他们有了具体的频道，他们可能会花更少的时间在无聊的浏览和频道选择上。（负面效果）

通常，A/B测试是最理想的，但在这种情况下不可能运行：我们不能强迫用户爱上某个频道(我们可以向他们推荐一些频道，但不能保证他们真的会喜欢它们)，我们也不能强行阻止他们进入某些频道。

一种方法是使用“自然实验”(一种宇宙本身以某种方式产生一种类似随机分配的情况)来研究这种效应。想法是这样的。

假设一个用户每周三上传一个新视频。有一个月，他告诉他的订阅者，在他度假的这几周内，他不会上传任何新的视频。

他的订阅者有何反应？他们会在周三停止看YouTube吗，因为他的频道是他们访问YouTube的唯一原因？还是他们的活动相对不受影响，因为他们只在他的内容出现在头版时才看？

想象一下，该频道每周五开始上传一段新视频。他的订阅用户也开始访问了吗？现在他们上了YouTube，他们是只是为了看新视频而呆在那里，还是他们的访问也会导致搜索和相关内容结果的大坑？

事实证明，这些情况确实会发生。例如，以下是一个热门频道何时上传视频的日历。你可以看到，在2011年，它倾向于在周二和周五上传视频，但在年底，它改为周三和周六上传。

倾向性模型，因果推断以及用户增长的驱动力发现

将这种转变作为“准随机”的自然实验，在特定的日子移除一个广受喜爱的频道，在其他日子将其引入，我们可以尝试了解成功做出完美推荐的效果。

(这可能是一个自然实验的有点复杂的例子。举个例子，也许能更清楚地说明这个观点，假设我们想了解收入对心理健康的影响。我们不能强迫一些人变穷或变富，相关性研究显然是有缺陷的。[纽约时报的这篇文章](http://opinionator.blogs.nytimes.com/2014/01/18/what-happens-when- recei-a-stipend/)描述了一个自然的实验：一群切罗基印第安人将赌场利润分配给他们的会员，从而“随机”地帮助其中一些人摆脱了贫困。

另一个例子是，假设“黑客周”发生的时间段没有什么特别之处，那么使用“黑客周”作为准随机“阻止”销售团队完成工作的工具，就像我上面描述的场景一样。

发现增长的驱动力

让我们回到倾向模型。

假设我们是公司的增长团队的一员，我们的任务是弄清楚如何将网站的普通用户转变为每天都会返回的用户。我们该怎么办？

倾向性建模方法可能如下。我们可以取一个特征列表(安装移动应用程序，登录，订阅消息，关注特定用户，等等)，然后为每个特征建立一个倾向性模型。然后，我们可以根据每个特征对用户参与的估计因果影响来对其排序，并使用这些特征的有序列表来对我们的下一个sprint进行优先级排序。(或者我们可以使用这些数字来说服执行团队我们需要更多的资源。)这是构建参与度回归模型(或流失回归模型)和检查每个特征的权重的思想的稍微复杂的版本。

尽管我写了这篇文章，但我承认我通常不喜欢在科技世界的许多应用中使用倾向模型。(我没有在医学领域工作过，所以我对它在医学领域的用处没有强烈的看法，尽管我认为它在医学领域更有必要一些。)我将把更多的理由留到下次再讲，但毕竟，因果推理是极其困难的，我们永远无法控制所有可能导致治疗偏差的潜在影响因素。事实上，我们必须选择特征包含在我们的模型中(记住：构建特征是非常耗时和困难的)，这意味着我们之前在每个特征的有用性上已经有一个强烈的信念，而我们真正想做的是发现隐藏的，我们从来没有想到的动机。

那么我们能做什么呢？

如果我们试图理解是什么驱使人们成为网站的重度用户，为什么我们不直接问他们呢？

更详细地说，让我们做以下事情：

首先，我们将对几百名用户进行调查。
在调查中，我们会问他们在过去的一年里，他们在网站上的参与度是增加了，还是减少了，还是保持不变。我们还会要求他们解释活动变化的可能原因，并描述他们目前是如何使用网站的。我们也可以要求补充细节，比如他们的人口统计信息。
最后，我们可以过滤得到那些在过去一年中参与度大幅提高的用户(或者那些参与度大幅降低的用户，如果我们试图理解用户流失的话)的所有反馈，并分析他们的反馈的原因。

例如，当我在YouTube上进行这项研究时，我得到了一个有趣的回应。

“我一直是个音乐迷，但最近开始弹吉他了。因为我发现了新的激情(弹吉他)，我看音乐会的欲望增加了。我开始看很多上传到Youtube和其他音乐视频上的音乐节和音乐会。我还花了很多时间在Youtube上看吉他课。"

这一回答代表了调查发现的一个普遍主题：参与的一大驱动力似乎来自人们发现了一种新的线下爱好，并利用YouTube来提高他们对它的欣赏程度。想在家里开始烹饪的人会去YouTube上看菜谱视频，开始打网球或其他运动的人会去YouTube上看课程或其他精彩的视频，大学生会寻找可汗学院这样的频道来补充他们的课程，等等。换句话说，线下活动在驱动线上的行为，而不是试图找出什么样的在线内容是用户感兴趣的（在Facebook喜欢什么样的文章，Twitter上他们关注了谁，在Reddit上他们看什么内容），也许我们应该专注于把用户线下的爱好带进数字世界。

这种“离线爱好”的想法肯定不会成为任何参与模型的一个特征，即使只是因为它是一个非常难以创建的特征。(我们怎么知道哪些视频与真实世界的行为有关？)但现在我们怀疑它是增长的潜在非常大的驱动力(“潜在的”，当然，调查并不一定具有代表性)，我们可以花更多的时间在日志中研究它。

结束

总而言之：在没有随机实验的情况下，倾向建模是一种强有力的测量因果效应的技术。

毕竟，在观察研究之上进行纯粹的相关分析是非常危险的。举个我最喜欢的例子：如果我们发现有更多警察的城市往往有更多的犯罪，这是否意味着我们应该尝试减少我们的警察部队的规模，以减少国家的犯罪数量？

另一个例子，这里：http://andrewgelman.com/2005/01/07/could_propensit/是Gelman关于激素替代疗法在哈佛护士研究中的矛盾结论的帖子。

也就是说，请记住(一如既往)模型的好坏取决于提供给它的数据。要解释所有可能起作用的隐藏变量是非常困难的，而你认为可能是一个设计良好的因果模型，实际上可能缺少很多隐藏的因素。(实际上，我记得听说护士研究中的倾向模型得出了一个有缺陷的结论，尽管目前我找不到任何与此相关的资料。)所以，考虑一下你是否还可以采取其他方法，它是一种更容易理解的因果关系技巧，还是仅仅是询问你的用户，即使一个随机实验现在似乎很难进行，但最终这些努力可能是值得的。

倾向性模型，因果推断以及用户增长的驱动力发现

—END—

英文原文：http://blog.echen.me/2014/08/15/propensity-modeling-causal-inference-and-discovering-drivers-of-growth/

倾向性模型，因果推断以及用户增长的驱动力发现

请长按或扫描二维码关注本公众号

喜欢的话，请给我个好看吧！

倾向性模型，因果推断以及用户增长的驱动力发现

因果推断

倾向模型

因果推断的其他方法

不连续回归

自然实验

发现增长的驱动力

结束

相关推荐