【ACP】阿里云ACP吐血汇总(一)
文章目录
一、大数据基础知识小结
(1)数据分析
数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。数据分析通俗的说就是对收集起来的大量数据进行分析,提取有用的信息。
-
数据分析流程:
需求分析 明确目标 --》 数据收集 加工处理 --》数据分析 数据展现 --》分析报告 提炼价值
(2)数据仓库系统
分析的前提是要有相应的数据,大量的业务数据聚集在一起,就产生了一种新的概念:数据仓库
数据仓库是一个面向主题的、集成的、非易失的、时变的数据集合,用于支持管理决策。
比如说一个电商系统,他的数据可以划分为客户主题、产品主题、订购主题、物流主题的相关数据。一个数据仓库的数据源可以来自于不同的业务系统,集成到同一个数据仓库中。数据到达数据仓库之后,会对外进行相关的查询,很少做相关的修改。同时数仓中的数据会随着时间而不停地变化。
-
基于数据仓库的数据分析流程:
分析需求–》 确认数据源–》 ETL处理 --》汇总/整合 --》 数据建模 --》 分析展现
(3)数据仓库解决的问题
- 为业务部门提供准确及时的业务报表:多个业务平台捕获数据整合
- 为管理人员提供更强的分析能力
- 为数据挖掘和知识发现奠定基础:通过数据分析,利用数据挖掘的技术找到数据发展的模式与规律,可以使预测分析的结果更准确完整。
(4)大数据的理解
大数据指在可承受的时间范围内用常用的软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特点:
- 体量巨大 体量达到 pb tb级别
- 种类繁多 数据来源于多个数据源,格式也可能是涵盖了音频、视频、文本等格式
- 价值密度低
- 处理速度快 涉及相关的实时性处理
大数据的理解:
- 不能盲目追求体量
- 不能盲目追求数量
- 不能盲目追求技术
- 不能盲目追求潮流
大数据的处理思路:
- 减治:将问题简化成一个更简单的能处理的问题
- 分治:将问题分成多个可以简单求解的小问题
– 复杂的问题简单化,复杂的问题拆分化,再重复减化。
二、阿里云大数据产品体系
(1)产品体系概况:
(2)阿里云数加平台定位:
一站式数据平台、提供三层服务(数加平台内底层数加平台提供基础计算服务:离线计算、流计算、分析型数据库等,同时提供数据平台分析工具,最上层数加平台提供应用级别的服务,包括规则引擎、画像分析、智能推荐) 、定制化行业解决方案。
(3)阿里云大数据基础产品:
- 云数据库 ApsaraDB for RDS (简称RDS):稳定可靠地伸缩性在线数据库服务、兼容 Mysql 、SQL server、PG等,只需在选择数据库时选择对应的数据库类型和版本。
- 表格存储 TS:构建在阿里云飞天分布式系统之上的NoSQL数据存储服务。
- 分析型数据库 Analytic DB:海量数据实时高并发在线分析云计算服务。
- 大数据计算服务 MaxCompute 原名ODPS:针对 TB/PB级、实时性要求不高的分布式处理能力,用于大数据运算能力相关的服务,开箱即用。
- 数据集成 Data Integration:阿里云对外提供的稳定高效、弹性伸缩的数据同步平台,为阿里云大数据计算引擎提供离线(批量)数据进出通道。
- 对象存储服务 Object Storage Service(OSS):海量、安全、低成本、高可用的云存储服务。即开即用,无限大空间的存储集群。
(4)阿里云数加平台:
- 大数据开发平台 DataWorks(原名Data IDE):数据工场DataWorks是基于MaxCompute作为计算和存储引擎的用于工作流可视化开发和托管调度运维的海量数据离线加工分析平台。具有托管和调度的能力。
- Quick BI :海量数据实时在线分析服务。
- 阿里云机器学习PAI:基于MaxCompute、GPU集群,支持MR、MPI、SQL、Spark。
- DataV:大屏开发平台。