数据科学与应用课程整理(一)——数据科学概述

2020/2/24~6/30,我学了数据科学与应用这门课,目的是为了之后BA相关学习打基础。

数据科学概述

数据如今正在成为组织最重要的资产,数据分析解读的能力成为组织的核心竞争力。通过洞察数据背后的规律,帮助人们做出正确的决策。

应用实例

实例1:杭州公交借助共享单车轨迹改善公交线路
背景:
杭州公交集团的286B路线路,某两站每天聚集着数百上千辆共享单车。
解决方案:
1.分析共享单车出行轨迹数据,发现单车主要社区来源
2.优化286B公交车的线路、首末班时间、发车频率
效果:
将乘客直接送到了家门口;新线路缓解了区域出行压力,也疏导了共享单车密集可能带来的道路隐患。

实例2:金融机构借助信用卡人群数据分析,改善信贷决策
背景:
金融机构信用卡方案如何定向推荐,成本收益最大化
通过市场数据分析,发现:
1.25~35岁的年轻人透支消费能力最强
2.年轻男性的失信风险是女性的1.3倍
3.车主人群是无车人群信贷需求的1.3倍,但是风险却低了65%
解决方案:
1.主攻25-~35岁人群,女性白领,车主等人群
2.为吸引这些类人群制定不同的方案,拿出相应的权益和活动吸引他们信贷消费。

实例3:图像数据分析辅助放射科医生读片,提高医疗效率
背景:
1.医疗诊断过程中CT、X 片等应用日益广泛
2.我国医学影像数据的年增长率约为30%,而放射科医师数量的年增长率为4.1%
解决方案:
基于医院历史的影像资料,利用机器学习等方法建立识别模型,自动读片进行疾病的检测(需要几万至几十万正确标注后的影像资料进行训练)。
效果:
为医生提供了高效的诊断辅助工具

实例4:面包店经营
背景:
花小仙经营了一家面包房,经过几年的经营,希望自己的店能进一步成长
解决方法:
记录开业以来店内产品的相关数据,做时间序列分析。
预测未来半年的收益、现金流,扩大面包量的机器、人员需求

数据科学概念

数据科学研究的就是从数据形成知识的过程:通过假定设想、分析建模等处理方法,从数据中发现,可使用的知识、改进关键决策过程。
数据科学的最终产物是数据产品,表现为一种发现、预测、服务、
推荐、决策、工具或者系统。

数据、信息、知识的关系

数据是世界的特征表现,包括零散的符号,数字,文字,声音,图像等。
经过处理和组织的有价值的数据,被抽象为信息。
知识是对某一个主题的理论或实际的理解
数据科学与应用课程整理(一)——数据科学概述

数据科学的知识框架

继承了各领域数十年甚至数百年的工作成果,包括统计学、计算机科学、数学、工程学以及其他学科。

领域专长:
1.从事数据工作的人员需要了解数据来源的业务领域,充分应用领域知识提出正确的问题。
2.帮助数据分析找到行动方向。
数学:
1.数学家是团队中解决问题的人
2.负责建立概率统计模型、进行信号处理,模式识别,预测性分析
计算机科学:
1.数据科学是由计算机系统来实现的
2.负责建立正确的系统架构,设计技术路线,选用开发平台和工具,最终实现分析目标。
数据科学与应用课程整理(一)——数据科学概述

数据科学流程

数据科学与应用课程整理(一)——数据科学概述

大数据

大数据属于数据科学的范畴,遵循数据科学的工作流程,采用数据分析的技术和方法,具有规模性、高速性、多样性和高价值性的特点。
当数据量达到特定规模时,需要引入分布式、并行计算、云平台等其他技术实现大规模数据的存储、计算和传输。
数据科学与应用课程整理(一)——数据科学概述

编译环境

官方python安装包(http://www.python.org/downloads)
• 包含Python编程环境,以及基础的方法库
• 开展数据分析,需要逐个安装相关工具包

Anaconda
• Python的科学计算发行版,开源
• 集成200多个工具包
• 满足数据分析工作的大部分需要
• 方便扩展第三方库
• 国内镜像地址(教学版本:Anaconda3-5.0.1)
https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/