ELECTRA: NLP预训练模型
ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately.
NLP式的Generator-Discriminator
ELECTRA最主要的贡献是提出了新的预训练任务和框架,把生成式的Masked language model(MLM)预训练任务改成了判别式的Replaced token detection(RTD)任务,判断当前token是否被语言模型替换过。
Replaced Token Detection
但判别器的梯度不会传给生成器,目标函数如下:
在优化判别器时计算了所有token上的loss,而以往计算BERT的MLM loss时会忽略没被mask的token。
参考: