ELECTRA: NLP预训练模型

ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately.

NLP式的Generator-Discriminator

ELECTRA最主要的贡献是提出了新的预训练任务和框架,把生成式的Masked language model(MLM)预训练任务改成了判别式的Replaced token detection(RTD)任务,判断当前token是否被语言模型替换过。

ELECTRA: NLP预训练模型

Replaced Token Detection

但判别器的梯度不会传给生成器,目标函数如下:
minθC,θDxXLMLM(x,θG)+λLDisc(x,θD) \min _{\theta_{C}, \theta_{D}} \sum_{x \in \mathcal{X}} \mathcal{L}_{M L M}\left(x, \theta_{G}\right)+\lambda \mathcal{L}_{D i s c}\left(x, \theta_{D}\right)

在优化判别器时计算了所有token上的loss,而以往计算BERT的MLM loss时会忽略没被mask的token。


参考:

  1. ELECTRA: 超越BERT, 19年最佳NLP预训练模型