序列模型与注意力机制总结
1.翻译即有条件的语言模型
2.1beam search 参数B
2.2 beam search 的 概率表达式
2.3 在扩展一次
3.beam search 改进,
修改评价函数为 log,同时做normalization时,增加一个超参。
4.Beam width B
5. 误差分析
比较 beam search 跟 rnn 引起误差的比例
6.Bleu score
7.1注意力模型,即增加跟距离有关的weight矩阵。(增加词距的影响)
weight 会受到 双向 a<t>以及前一个s的影响。
7.2weight公式
7.3
8.CTC
9.改善0跟1标签 分布不均匀的方式。