算法学习笔记----Day25(机器学习导论)

今日学习

第一部分:大数据时代

一.大数据的4V特征
数据量大;
数据种类多:结构化数据(mysql)、非结构化数据(图像、音频)、半结构化数据(xml、html);
速度快:数据的增长速度快、处理速度快;
价值密度低:价值高,数据总量大,需要机器学习算法解决问题。

二.大数据项目架构
数据采集层:ftp、socket方式
数据存储层:HDFS
数据分析层:MR\Hive\Impala\Spark
机器学习层:在大数据处理后的应用
数据站时层:oracle + SSM

三.机器学习引入
机器学习位于大数据上层,完成的是在大数据基础的数据存储和数据计算之上,通过数据结合机器学习算法构建机器学习模型,利用模型对现实事件做出预测。

第二部分:机器学习

一.机器学习、人工智能的概念和区别
人工智能应用:图像识别、无人驾驶、智能翻译、语音识别、医疗智能诊断、数据挖掘。
机器学习是人工智能的一个分支,深度学习是实现机器学习的一种技术。
算法学习笔记----Day25(机器学习导论)
二.数据分析、数据挖掘和机器学习的关系
数据:即观测值,如测量数据。
信息:可信的数据。
数据分析:从数据信息的整理、筛选和加工过程。
数据挖掘:对信息进行价值化的分析。
用机器学习的方法进行数据挖掘。机器学习是一种方法;数据挖掘是一件事情;还有一个相似的概念就是模式识别,这也是一件事情,而现在流行的深度学习技术只是机器学习的一种。

三.机器学习
致力于研究如何通过计算(CPU和GPU计算)的手段,利用经验来改善(计算机)系统自身的性能。
主要内容是关于在计算机上从数据中产生“模型(model)”算法(学习算法),数据+机器学习算法=机器学习模型,有了学习算法就可以根据经验数据产生模型。
机器学习学习的是模型中的参数

备注:

1.HDFS:Hadoop Distributed File System,Hadoop分布式文件系统,被设计成适合运行在通用硬件(commodity hardware),HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

2.hive:基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。
hive 构建在基于静态批处理的Hadoop 之上,Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。

3.Impala:Cloudera公司主导开发的新型查询系统,提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点就是它的快速。