您的位置: 首页 > 文章 > BERT和XLNET的对比 BERT和XLNET的对比 分类: 文章 • 2024-02-27 16:04:51 学习链接 对比方面: 1.BERT会使用mask的Word的vector和position而xlnet在训练的时候不使用mask的Word的vector和position 2.XLNET使用多种因式分解进行预测。 这张图表示什么意思?QUERY和KEY,VALUE表示什么? 3.对每层的注意力进行掩码。 4.由于不知道预测词的位置,所以需要另外一个模型来预测预测值的位置