深度学习中的数学知识

1 矩阵运算

深度学习方法中引入矩阵计算的原因是矩阵能进行大规模的并行计算,将矩阵的计算方式引入计算机能很大程度上提升计算机的计算效率。

1.1 标量、向量、矩阵和张量

标量:独立存在的数,比如线代中的一个实数。
向量:一列按顺序排列的元素,通常用括号将这一元素括起来,其中每个元素都由一个索引值唯一地确定其在向量中位置。
矩阵:矩阵就是一个二维数组结构,用括号将其中的全部元素括起来,向量的索引值是一维的,矩阵的索引值是二维的。但矩阵与二维数组的表示形式一般略有不同。
张量:数组维度超过了二维时,就可用张量表示。可将张量理解为高维数组。

标量也称0维张量,向量称一维张量,矩阵称二维张量。语音一般是三维张量、图像一般是四维张量。

1.2 矩阵的转置与基本运算

在一般情况下,通过在矩阵右上角加上符号"T"来表示转置该矩阵。转置的意思就是对于下标i和j调换了位置。即把ij位置的元素放到ji位置。
矩阵的基本运算包括加法、减法、乘法与除法运算。
不同于一般的算术运算,矩阵中加、减、乘运算,为不同矩阵对应位置元素的运算。矩阵中的除法运算需通过引入矩阵的逆来解决。但需注意的是,矩阵进行加、减运算时,两个矩阵需具有相同的行数和列数。
进行矩阵乘法时,若可以进行乘法运算,则前一个矩阵的列数必须与后一个矩阵的行数相同。矩阵的乘法运算也满足乘法的分配律和乘法的结合律。

2 导数

导数包括一阶导数、二阶导数和高阶导数等,但深度学习反向传播过程中仅用到一阶导数,且其集合意义便于理解,所以此处仅介绍一阶导数的求解。
学过高数的都知道一阶导数的几何意义对应函数曲线在x0点切线的斜率,前提是该函数在x0处可导。
常见的函数一般多为凸函数和凹函数的组合,而非完全的凸函数或完全的凹函数。当函数的导数为0时,一般为函数的极大值或极小值点。
极大值点不一定是最大值点,极小值点也不一定是最小值点。因此才需要优化,使得极小值和极大值点分别靠近最小值和最大值点!

2.1 一元函数与二元函数

一元函数的求导直接对变量进行即可。对于多元函数,一般分别对不同的变量求导,对一个变量求导过程中,其他变量当作常量处理。也叫其为偏导数
深度学习中的数学知识

2.2 初等函数的和、差、积、商求导

深度学习中的数学知识

2.3 复合函数的链式求导法则