机器学习原理及入门之R语言
1.机器学习语言--R语言
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。具有面向对象的血统;机器学习为什么需要R语言呢?因为这是统计学家的语言,我们需要借助其中的方法来训练机器;
2.R官网下载3.1.3
3.IDE开发环境使用Rstudio
4.重点--如何使用R数据结构来存储和提取数据,如何将不同数据格式和来源的数据导入R,理解可视化复杂数据的常用方法;
5.数据结构:
1.向量:存储一组有序的值(元素);元素没有数量限制,但是必须同一类型,不能同时包括数字和文本;有固定的顺序;可以被通过序号访问;
2.因子:向量特列;character可以通过factor()方法转化为因子;
3.列表:特殊类型的向量,有序,允许收集不同类型的值,用列表构建对象访问;
4.数组:
5.数据框:最重要的R数据结构,既有行又有列,提取向量数据就和提取列表中的一个元素一样easy,
二维数据【rows,columns】;新参数 stringAsFactors = false;
6.矩阵:
6.数据管理
1.保存和加载R数据结构;
2.用csv文件导入和保存数据;
3.从sql数据框导入数据;
7.线性回归
1. 使用R准备数据进行回归分析
2. 定义线性方程并估回归模型
8.理解回归
1.回归平均值
2.回归问题主要关注一个唯一的因变量和一个或者多个自变量之间的关系
3.广义线性回归:逻辑回归和泊松回归
4.简单线性回归问题 y = a+bx;
9.理解回归
10.相关系数
1.两个变量之间的相关系数表示两个变量服从一条直线的关系的紧密程度
2.相关系数就是指Pearson相关系数,相关系数的范围是-1~1之间,两端的值表示一个完美的线性关系
3.相关系数为0则表示不存在线性关系。
11.多元线性回归
现实情况有多个自变量,很有可能使用多元线性回归;
12.神经网络
神经网络借用人们理解人脑所应用的概念。尽管复杂但是模型可以很容易的运用到现实世界中去
13.理解神经网络
1.从生物神经元到人工神经元
**函数:将神经元的净输入信号转化为单一的输出信号,便于在网络中传播
网络拓扑:描述了模型中的神经元的数量以及层数和他们连接的方式;
训练算法:指定如何设置连接权重,以便抑制或增加神经元在输入信号中的比重。