9 KERAS
keras
keras ---牛角
dense就代表fully connected network
分成一个个batch,随机分的
都看过一次算one epoch
然后重复好几十个epoch
上图已更新2000次参数
batch size = 1则为随机梯度下降方式,
时间相同的情况下,肯定选比较稳定的那一个
但也不能选太大,GPU也有限制,比如选10000也不行,就会卡住,而且性能很差、
mini batch增加了随机性,不容易陷入saddle point , local minima
就是用了平行运算的原因,GPU
合并起来,下面比较快的,GPU
gpu要有效一定要设mini batch