【读 深入浅出数据分析】 一日一章 读书第三天 第三章-最优化:寻找最大值
暑假定下来的发展方向,说用七八九三个月把数据分析的课程跟完,完成一个项目。其实掉到别的数据坑去了,所以在丢票风波稍平息后,入手了这本《深入浅出数据分析》。总13章节三个附录,预计有效读书十五天,十篇有效笔记。
预计
老规矩,先放豆瓣评分,然后按照重点部分总结然后加上自己的笔记练习。前面两章的学习近乎没有操作电脑的,都是关屏读书,所以等到二遍阅读时候再补笔记,这里从第三章开始。
前面两部分是从序言后开始的,1.数据分析引言:分解数据 和 2.实验:检验你的理论 。主要是对业务问题四个阶段的说明,也就是确定→分解→评估→决策。恰巧的是现在跟的方向主要是,通过大量的数据语料分析出评估结果,进而得到有效决策。再次验证了,学习方向没有大毛病。
从目录来看,这章节引入解决方案的数据分析工具-Solver一个电子表格软件包,其中默认安装在office的Excel加载项中,跟着附录我已经全部打开,具体需要参照可以点这个链接-打开Solver求解器 。不多说,主要是为了调整决策变量。
文中使用的地方是计算最佳配置,这里我选了个自己本机上的数据,只作了解。solver求解器,对于最优化问题比较方便。
书里这一章节从浴室玩具的实际业务问题开始引入,讲述橡胶鸭子和橡皮鱼的从制作到售价、数量等变量存在的关系,最后目标是利润最大化,也就是利润变量最优化的问题。
这些能够提供的数据可以分为两类:无法控制的因素/可控的因素,比如厂家有多少橡胶,利润多少,生产时间等,能控制因素是分别生产多少只。还有一个关键词:约束条件,决策变量是可控的因素。
其中商家来信,不会把一些信息直接用数字或者标红加粗的方式告诉你,我们需要从来信中提取出需要的内容,比如约束条件/决策变量→最大利润?其中如何实现,让我们回到初高中,最开始接触函数。也就是使用目标函数来解决这个问题是把业务抽象成数学问题,很不幸这是我的软肋,可还得继续,接着往后看。
可以把两种橡皮玩具的数量设置为x,y,然后约束他们的条件其实就是橡胶数和时间。而他们的前缀则是单只的利润,在这个目标公式中,需要加一些约束条件,比如,橡胶数单种最大制作数量,时间单个最大制作数量,这个是一个范围。
随后,为了直观的表述这些因素关系,开始引入直方图(当然,这个正式讲估计要等到后面几章,这里只是暂时用一下,如果生涩,就当它叫做方块图好了)同时,为了在一张图中绘制出多个约束条件,将两个方块图拼到一起,做成二维的图表,然后将符合条件的部分涂黑,这样子合理选择就出现在可行区域里。
为了更好的,不,不是更好,因为人为来计算这些点的可能性的话太累了,但是计算机本身就是做这些事情,所以,可以使用office里的函数或者一些工具来解决。引入我们今天的主角-Solver,求解器。
数据表已经就位,当时我使用的数据非这批,所以更新博客的时候,决定再去练习一下。数据和Solver已经就位。
按照书上提示,点击规划求解,可能是因为下载的是别人已经练习过的版本,居然已经出现了约束条件和一些设置。
点击求解后,出现新一轮的提示,跟上面对比,可以发现duck和fish的数量已经变化了,而总利润也提升了。
这个是使用规模规划求解的结果,按照文中对于时间和橡胶的约束,重新输入条件,比如总共橡胶使用量不能高于橡胶供应,单个制作玩具数量不能超过所有用时,最后总数据应该为最大。
条件和求解结果如下,这段练习就over了,接着跟进下一部分。
这部分设计好后,业务重新出现大反派(这是这本书的特点,弯弯绕出现几个起伏),提交方案后,利润跌穿地板,这里我被翻译笑死了,同时写的我脑壳有点痛,切出去博文换成护眼模式。
这里为了解释模型的问题,引入一段话,
一切模型都是错误的,但其中一些是有用的。
-某位著名统计学家 George Box
模型是我们用来解决问题的,可假设条件如果除了问题,那么模型就不再适合,所以需要修正。这里有一个想一想,文中认为,最好的分析,也不能保证顾客一定买账,销售一空永远只是合理规划中的理想状态。(好吧,这句话是我理解的)实际情况并不是这样,需要增加受众假设。
那么引入历史销售数据,通过多张数据表分析来看,两种橡皮玩具的销量情况是正好相反的,一个上升一个则下降,所以我们这里又有了一个新名词,负相关关系。一种多一种就少。并且,不要假设两种变量之间是不相关的。将历史数据投射到折线图(横轴月份纵轴销量,不理解就当是线图吧)上,可以看出三个量(两种单个玩具、还有个总和)的走势。
书里开始提示“需要新增一个约束条件”-用于估计某个月的两种橡皮玩具的需求量,有需求才有人买。根据最后的两种玩具的节点,选择作为两种的最高节点。在数据中加入约束条件,再进行一次计算。
ok~结果出来了,950.150+50的组合。然后结果也很ok,还送了一只小鸭子,印着“Head First”,诶~我当然在旁边补充了,I like it!话说回来,这次有历史数据,可以看出来相关性,那么假如没有,用文中一句话来说,反复不断地进行构建模型正是分析师的工作。
好,这一章结束了,因为是复习,我看第一遍的时候在对着书,写写画画,第二遍才会来更博客。看完这部分就要接着关上网页,去看第五章了,好的 ,下次我们第四章见。
还是那句话,每日精进,刻意练习。话是我抄的,心态是我学的。