数据分析五板斧与里面的屠龙刀(上)
点击上方蓝色字体,关注我们
浩彬老撕,R语言中文社区特邀作者,好玩的IBM数据工程师,立志做数据科学界的段子手。
个人公众号:探数寻理
在大数据时代下,数据科学家可说是当下最迷人的职业。在大家的眼中,数据科学家的主要任务是能够利用诸如统计分析,机器学习等技术,能够从海量的结构化以及非结构化数据中获得洞察,从而改进优化商业决策或者产品。
从上面的定位中看,与大多数职业不同的是,数据科学家的工作职责并不仅仅服务于企业工作流程的某个环节,而是贯穿于从前期商业理解到后期商业优化的全流程。那在整个流程当中,数据科学家需要完成或经历哪些阶段,我们不妨借助IBM数据分析的全生命周期剖析一下。
IBM提出数据分析的全生命周期是指从制定业务计划到发现问题并解决问题的一个完整的业务循环决策过程,一个数据科学家在此过程中主要包括如下分析任务:
1.计划性分析
计划性分析的主要重点是能够制定更为准确的计划、预算和预测。企业每年都要花费不计其数的时间编制详细的业务计划、业务预测和业务报告,用于推动他们的战略决策和绩效管理流程。在计划性分析的过程中,至关重要的事故信息必须及时准确,而且可以随着业务状况的变化而轻松更新。
2.描述性分析
描述性分析的主要重点是能够更为准确、可靠地监控、检测、分析及报告业务及财务数据。一般来说,我们可以借助仪表盘等可视化手段完成对数据的探索,从而帮助生产强大的数据洞察。描述性分析看似简单,但是理想的情况下,真正的精髓在于帮助数据分析师可ui直观地呈现数据,讲述数据中的“故事”,最终揭示全新的洞察。
3.诊断性分析
诊断性分析的主要重点是能够探索及分析业务问题发生的根源。相比于传统的基于结构化数据分析,诊断性分析将进一步结合结构化数据与非结构化数据进行深度洞察,通过深度的自然语言处理过程,结合实体和概念抽取等手段,诊断性分析将进一步为我们揭示了事情“为什么发生”。
4.预测性分析
预测性分析的主要重点是能够基于业务需求,建立并部署准确的预测性模型。预测分析涵盖了各种统计学技术,包括利用机器学习,数据挖掘等技术来分析当前及历史数据,从而对未来,或其他不确定的事件进行预测。在商业领域,预测模型从历史和交易数据探索规律,以识别可能的风险和商机。模型捕捉各个因素之间的联系,以评估风险及与之相关的潜在的条件,从而指导交易方案的决策。
5.解释性分析
诊断性分析的主要重点是能够借助于数据洞察,通过运筹优化等手段优化业务决策。解释性分析的核心在于优化,它应用数学和逻辑,以期提高效率。它本身并不关心概率,或者尝试通过查看过去发生的事来预测未来。但它基于事实—成本和收益、可用的资源和需求、目标和限制—使用数学算法和逻辑找到 最 佳 的 计 划 或 活 动 安 排。
直白地说,这五个分析任务我们可以把它理解为数据科学家的“五板斧”
毫无疑问,对于数据科学家来说,以上的“五板斧”都是十分的重要,对于不同的业务需求,我们需要根据实际情况选择不同分析方法。
值得注意的是,随着近几年数据科技的技术技术手段越来越高,分析人员已经逐渐从传统的结构化数据分析,慢慢把精力放在了非结构化数据当中。因为相比于传统的基于结构化数据分析,诊断性分析将进一步结合结构化数据与非结构化数据进行深度洞察,因此也有写小伙伴把“诊断性分析”称作“五板斧”中的“屠龙刀”。
好了,关于这把“屠龙刀”的进一步讨论,我们将在明天“数据分析五板斧与里面的屠龙刀(下)”为大家详细介绍如何针对非结构化数据进行深入分析。
往期回顾:
统计挖掘那些事(四)-9个相关R先生的故事(理论+动手案例)
统计挖掘那些事(五)--(理论+案例)如何通俗地理解极大似然估计?
最好玩
最通俗
最易懂
de
机器学习课程
Now
限免
限免
限免
现在扫描下方二维码即可免费学习
点击阅读原文即可购买配套教材书籍