序列生成(sequence generate)架构
序列生成架构:
- decoder模型:
1.1 模型架构图:
1.2 数据流:
数据形式:使用历史token序列预测当前时刻 t 下一个时刻 t+1 时刻。
训练数据形式:假设有一段token序列X,那么input_sequence = X[:-1],lable_sequence = X[1:],原则就是使用当前时刻的历史hidden state info和当前token作为模型(模型可是RNN或transformer)的输入,预测下一时刻的输出token,如图中一个子模块。
预测数据形式:初始token序列输入网络获取第一次预测token和hidden state info,之后第一次预测token和hidden state info作为子网络的输入,预测下一个token,依次循环直到预测结束。 - encoder-decoder模型