数据分析师必须知道的项目问题
根据我在工作和领导数据分析项目组方面的经验,有3个标准可以定义一个好的项目。这些是:
1.明确目标。如果你不理解问题,就无法解决。我们获得的大部分时间都是由普通人设计的,需求通常是含糊的,有时是基于幻想的。这是由于总体上缺乏有项目经验所致。大多数普通人既不了解数据分析也不了解项目概念,并且很难为他们要最终模型做什么提出清晰的规范。这会导致很多数据分析师不知道自己要的是什么。因此,为什么这是我的第一标准。在开始编写代码或寻找数据之前,你应该做的第一件事是定义项目的目标以及应该实现的目标,以避免与不良沟通有关的所有麻烦。
2.明确定义的成功指标。如果你是数据分析师,则可以将其视为损失函数。这基本上就是模型应具有的准确性。由于准确性和均方误差之类的东西是超级抽象的项目经理,因此客户通常很难决定如何衡量数据分析/ ML项目的成功。通常,你会听到非机器学习人员要求更高的准确性,而实际上诸如召回率之类的其他指标可能更重要。还需要对它们进行很好的定义,因为你可能最终出于错误的目的优化和构建模型。
3.足够的高质量数据。我不记得有多少次客户来找我,要求我建立一个没有数据或数百个样本的模型。在大多数情况下,如果你从未从事过数据分析项目的工作,而这实际上很难决定所需的数据量,这并不是客户的错。对于数据分析专家而言,有时甚至对你公司的非技术经理而言更是困难重重。数据的重要性绝对不可低估,因为这是使模型变得更好的秘密所在。太少了会使你的模型平淡无奇,而太多的无目的项目会使企业方对你失去信心。