latex数学公式制作示例
\documentclass[UTF8,a4paper]{article}
\usepackage{ctex,fontspec,geometry,color,setspace}
\geometry{left=1cm,right=1cm,top=1cm,bottom=1cm}
\setmainfont[Mapping=tex-text]{宋体}
\begin{document}
\begin{spacing}{0.9}
\section*{神经网络梯度下降公式推导}
\section*{前向传播}
隐藏层的向量值通过输入层到隐藏层之间的权重矩阵与输入层向量点乘得到
\newline
$X_{hidden}=W_{input\_hidden} \cdot I$
\newline
隐藏层的输出向量值就是通过**函数计算后的值
\newline
$O_{hidden}=sigmoid(X_{hidden})$
\newline
输出层向量值
\newline
$X_{output}=W_{hidden\_output} \cdot O_{hidden}$
\newline
应用**函数后,得到最终的输出向量
\newline
$O_{output}=sigmoid(X_{output})$
\newline
\section*{误差反向传播}
$Error_{output}=Target-O_{output}$
\newline
$Error_{hidden}=W^{T} \cdot Error_{output}$
\newline
\section*{应用链式法则求解梯度}
$\frac{\partial E}{\partial W_{jk}}=\frac{\partial}{\partial W_{jk}} \sum_{n}(t_{n}-O_{n})^{2}$
\newline
因为n节点对于$W_{jk}$变化的响应只与与之连接的部分有关,所以:
\newline
$\frac{\partial E}{\partial W_{jk}}=\frac{\partial}{\partial W_{jk}}{\left(t_{k}-O_{k}\right)}^{2}$
\newline
$t_{k}$和$W_{jk}$不相关,所以以上公式可以简化为:
\newline
$\frac{\partial E}{\partial W_{jk}}=\frac{\partial E}{\partial O_{k}}\cdot\frac{\partial O_{k}}{\partial W_{jk}}$
\newline
$\frac{\partial E}{\partial W_{jk}}=-2\left(t_{k}-O_{k}\right)\cdot\frac{\partial O_{k}}{\partial W_{jk}}$
\newline
$\frac{\partial E}{\partial W_{jk}}=-2\left(t_{k}-O_{k}\right)\cdot\frac{\partial }{\partial W_{jk}} sigmoid\left(\Sigma_{j}W_{jk}\cdot O_{j}\right)$
\newline
\textcolor{magenta}{注意:$O_{k}$ 是指输出层的向量值 而$O_{j}$是前面隐藏层的输出向量! }
\newline
由于:
$\frac{\partial}{\partial X}sigmoid(X)=sigmoid(X)(1-sigmoid(X))$
\newline
所以:
\newline
$\frac{\partial E}{\partial W_{jk}}=-2(t_{k}-O_{k}) \cdot sigmoid(\sum_{j} W_{jk} \cdot O_{j})(1-sigmoid(\sum_{j} W_{jk} \cdot O_{j})) \cdot \frac{\partial}{\partial W_{jk}}(\sum_{j} W_{jk} \cdot O_{j})$
\newline
$\frac{\partial E}{\partial W_{jk}}=-2(t_{k}-O_{k}) \cdot sigmoid(\sum_{j} W_{jk} \cdot O_{j})(1-sigmoid(\sum_{j} W_{jk} \cdot O_{j})) \cdot O_{j}$
\newline
$\frac{\partial E}{\partial W_{jk}}=\textcolor[rgb]{0,0.5,0.5}{-e_{j}}\cdot \textcolor[rgb]{1,0,0}{sigmoid(\sum_{j} W_{jk} \cdot O_{j})(1-sigmoid(\sum_{j} W_{jk} \cdot O_{j}))} \cdot \textcolor[rgb]{0,0.6,0}{O_{j}}$
\newline
至此,梯度已经求得,接下来就是要用它来更新连接权重值
\newline
$new\ W_{jk}=old\ W_{jk}-\alpha\cdot\frac{\partial E}{\partial W_{jk}}$
\newline
$\Delta W_{jk}=\alpha * E_{k} * sigmoid(O_{k}) *(1-sigmoid(O_{k})) \cdot O_{j}^{T} $
\newline
\end{spacing}
\end{document}
效果如图: