算法工程师的数学基础｜线性代数中的矩阵

【算法工程师的数学基础】系列将会从线性代数、微积分、数值优化、概率论、信息论五个方面进行介绍，感兴趣的欢迎关注【搜索与推荐Wiki】公众号，获得最新文章。

《算法工程师的数学基础》已更新：

1、算法工程师的数学基础｜线性代数中的向量和向量空间
2、算法工程师的数学基础｜线性代数中的矩阵

线性代数主要包含向量、向量空间（或称线性空间）以及向量的线性变换和有限维的线性方程组。本篇文章主要介绍线性代数部分中的矩阵知识。

线性映射

线性映射（linear map）是指从线性空间 $V$ 到线性空间 $W$ 的一个映射函数： $f \rightarrow W$ ，并满足：对于 $V$ 中任何两个向量 $u$ 和 $v$ 以及任何标量 $c$ ，有：
$f(u+v) = f(u) + f(v) \\ f(cv) = cf(v)$
两个有限维欧式空间的映射函数 $f: R^n \rightarrow R^m$ 可以表示为：
$y = Ax \overset{ \Delta }{=} \begin{bmatrix} a_{11} x_1 + a_{12}x_2 + ... + a_{1n}x_n \\ a_{21} x_1 + a_{22}x_2 + ... + a_{2n}x_n \\ . \\ . \\ . \\ a_{m1} x_1 + a_{m2}x_2 + ... + a_{mn}x_n \end{bmatrix}$
其中 $A$ 定义为 $m*n$ 的矩阵（matrix），是一个由 $m$ 行 $n$ 列元素排列成的矩形阵列。一个矩阵的第 $i$ 行，第 $j$ 列上的元素表示为 $A_{ij}$ 。

矩阵操作

加如果 $A$ 和 $B$ 都是 $m*n$ 的矩阵，则 $A$ 和 $B$ 的加法结果也是 $m*n$ 的矩阵，其每个元素都是 $A$ 和 $B$ 对应位置元素相加。

$[A+B]_{ij} = a_{ij} + b_{ij}$

乘积假设有两个 $A$ 和 $B$ 分别表示两个线性映射 $g: R^m \rightarrow R^k$ 和 $f: R^n \rightarrow R^m$ ，则其复合线性映射：
$(g \circ f)(x) = g(f(x)) = g(Bx) = A(B(x)) = (AB)(x)$
其中 $AB$ 表示矩阵 $A$ 和 $B$ 的乘积，定义为：
$[AB]_{ij} = \sum_{k=1}^{m}a_{ik}b_{kj}$
两个矩阵的乘积仅当第一个矩阵的列数和第二个矩阵的行数相等时才能定义。如果 $A$ 为 $k*m$ ， $B$ 为 $m*n$ ，这 $A*B$ 的结果是一个 $k*n$ 的矩阵。

矩阵的乘法满足结合律和分配律：

结合律： $(AB)C = A(BC)$
分配律： $(A+B)C = AC+BC, C(A+B)=CA + CB$

Hadamard积 $A$ 和 $B$ 的Hadamard积，也称为逐点乘积，为 $A$ 和 $B$ 中对应的元素相乘。
$[A \odot B]_{ij} = a_{ij} b_{ij}$
一个标量 $c$ 与矩阵 $A$ 乘积为 $A$ 的相应位置的元素与 $c$ 的乘积：
$[cA]_{ij} = ca_{ij}$

转置 $m*n$ 矩阵 $A$ 的转置（transposition）是一个 $n*m$ 的矩阵，记为 $A^T$ ， $A^T$ 的第 $i$ 行第 $j$ 列的元素是原矩阵 $A$ 的第 $j$ 行第 $i$ 列的元素
$[A^T]_{ij}=[A]_{ji}$

向量化 矩阵的向量化是将矩阵表示为一个列向量。这里vec是向量化算子。设 $A=[a_{ij}]_{m*n}$ ，则：
$vec(A) = [a_{11}, a_{21},...,a_{m1},a_{12},a_{22},...,a_{m2},...,a_{1n},...,a{mn}]^T$

迹方块矩阵 $A$ 的对角线元素之和称为它得迹（trace），记为 $tr(A)$ 。尽管矩阵得乘法不满足交换律，但它们得迹相同，即 $tr(AB)=tr(BA)$

相信读者看到这里，肯定会有疑问，这么简单的「迹」，有什么特殊意义的？因为迹是有所有矩阵特征值的和，在求矩阵特征值的时候特别重要。

行列式 方块矩阵 $A$ 的行列式是一个将其映射到标量的函数，记作 $det(A)$ 或 $|A|$ 。行列式可以看做是有向面积或体积的概念在欧氏空间的推广。在 $n$ 维欧式空间中，行列式描述的是一个线性变换对体积所造成的影响。

一个 $n*n$ 的方块矩阵 $A$ 的行列式定义为：
$det(A)=\sum_{\sigma \in S_n} sgn(\sigma) \prod_{i=1}^{n} a_{i,\sigma(i)}$
其中 $S_n$ 是 $\{ 1,2,...,n \}$ 的所有排列的集合， $\sigma$ 是一种一个排列， $\sigma(i)$ 是元素 $i$ 在排列 $\sigma$ 中的位置， $sgn(\sigma)$ 表示排列 $\sigma$ 的符号差，定义为：
$(\sigma) = \left\{\begin{matrix} 1 \\ 0 \end{matrix}\right.$
当 $\sigma$ 中的逆序对有偶数个是为1，当 $\sigma$ 中的逆序对有奇数个是0

其中逆序对的定义为：在排列 $\sigma$ 中，如果有序数对 $(i,j)$ 满足 $1 \leq i < j \leq n$ 但 $\sigma(i) > \sigma(j)$ ，则其为 $\sigma$ 的一个逆序对。

秩一个矩阵 $A$ 的列秩是 $A$ 的线性无关的列向量数量，行秩是 $A$ 的线性无关的行向量数量。一个矩阵的列秩和行秩总是相等的，简称为秩（rank）。

一个 $m*n$ 的矩阵的秩最大为 $min(m,n)$ 。两个句子的乘积 $AB$ 的秩 $rank(AB) \leq min( rank(A), rank(B))$ 。

范数矩阵的范数有很多种形式，其中常用的 $l_p$ 范数定义为：
$||A||_p = ( \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^p )^{1/p}$

矩阵类型

对称矩阵（symmetric） 指其转置等于自己的矩阵，即满足 $A=A^T$ 。

稀疏矩阵（sparse matrix） 矩阵中分布有大量的元素 0，即非 0 元素非常少，这类矩阵称为稀疏矩阵。如下：
$\begin{bmatrix} 0 & 1 & 0 \\ 0& 0 & 2 \\ 0& 1 & 0 \end{bmatrix}$

上（下）三角矩阵 一个 $m*m$ 的矩阵的对角线称为主对角线，如果除主对角线之外的元素全部为0，则主对角线下的矩阵称为上三角矩阵，主对角线上的矩阵称为下三角矩阵

算法工程师的数学基础｜线性代数中的矩阵

对角矩阵（diagonal matrix） 是一个主对角线之外的元素皆为0的矩阵。对角线上的元素可以为0或其他值。一个 $n*n$ 的对角矩阵 $A$ 满足：
$[A]_{ij} = 0 \, \, if \, i\neq j, \forall i,j \in \{1,...,n\}$
对角矩阵 $A$ 也可以记为 $diag(a)$ ， $a$ 为一个 $n$ 维向量，并满足：
$[A]_{ij} = a_i$
$n*n$ 的对角矩阵 $A=diag(a)$ 和 $n$ 维向量 $b$ 的乘积为一个 $n$ 维向量
$Ab = diag(a)b = a \odot b$
其中$\odot $表示点乘，即$ (a \odot b)_i = a_i b_i$

单位矩阵（identity matrix） 是一种特殊的对角矩阵，其主对角线元素为1，其余元素为0。 $n$ 阶单位矩阵 $I_n$ ，是一个 $n *n$ 的方块矩阵，可以记为 $I_n=diag(1,1,1,...)$

一个 $m*n$ 的矩阵 $A$ 和单位矩阵的乘积等于其本身
$AI_n = I_mA = A$

逆矩阵 对于一个 $n*n$ 的方块矩阵 $A$ ，如果存在另一个方块矩阵 $B$ 使得
$AB = BA = I_n$
为单位矩阵，则称 $A$ 是可逆的。矩阵 $B$ 称为 $A$ 的逆矩阵（inverse matrix），记为 $A^{-1}$

一个方阵的行列式等于0当且仅当该方阵不可逆。

正定矩阵（positive-definite matrix） 对于一个 $n*n$ 的对称矩阵 $A$ ，如果对于所有的非零向量 $x \in R^n$ ，都满足 $x^T A_x > 0$ ，则 $A$ 为正定矩阵。如果 $x^T A_x \geq 0$ ，则 $A$ 是半正定矩阵。

正交矩阵（orthogonal matrix） 正交矩阵 $A$ 为一个方块矩阵，其逆矩阵等于其转置矩阵。

$A^T = A^{-1}$
等价于 $A^T=AA^T=I_n$

Gram矩阵 向量空间中一组向量 $v_1, v_2, ..., v_n$ 的Gram矩阵， $G$ 是内积的对称矩阵，其元素 $G_{ij}$ 为 $v_i^T v_j$

特征值与特征矢量

如果一个标量 $\lambda$ 和一个非零向量 $v$ 满足：
$Av = \lambda v$
则 $\lambda$ 和 $v$ 分别称为矩阵 $A$ 的特征值（eigenvalue）和特征向量（eigenvector）

矩阵分解

一个矩阵通常可以用一些比较简单的矩阵来表示，称为矩阵分解（matrix decomposition，matrix factorization）

奇异值分解 一个 $m*n$ 的矩阵 $A$ 的奇异值分解（Singualr Value Decomposition，SVD）定义为：
$A = UDV^T$
其中 $U,V$ 分别为 $m*m, n*n$ 的正交矩阵， $D$ 为 $m*n$ 的对角矩阵，其对角线上的元素称为奇异值（singular value）

特征分解 一个 $n*n$ 的方块矩阵 $A$ 的特征分解（Eigendecomposition）定义为：
$A= QBQ^{-1}$
其中 $Q$ 为 $n*n$ 的方块矩阵，其每一列都为 $A$ 的特征向量， $B$ 为对角阵，其每一个对角元素 $A$ 的特征值。

如果 $A$ 为对称矩阵，则 $A$ 可以被分解为：
$A = QBQ^T$
其中 $Q$ 为正交阵。

好了，线性代数中的矩阵介绍和相关概念已经介绍完毕了，欢迎转发分享，让更多的人看到！

扫一扫关注微信公众号！号主专注于搜索和推荐系统，尝试使用算法去更好的服务于用户，包括但不局限于机器学习，深度学习，强化学习，自然语言理解，知识图谱，还不定时分享技术，资料，思考等文章！

算法工程师的数学基础｜线性代数中的矩阵

线性映射

矩阵操作

矩阵类型

特征值与特征矢量

矩阵分解

相关推荐