您的位置: 首页 > 文章 > GPT1-3（GPT3/few-shot,无需finetune）

GPT1-3（GPT3/few-shot,无需finetune）

分类: 文章 • 2023-11-07 21:26:34

GPT1–finetune

12层单向transformer
预训练+精调
被bert比下去了

GPT2-元学习

输入：加上任务描述
- “英翻法：This is life”
输出：
- “C’est la vie”
参数15亿
在NLU:比不上bert
也比不过其他大参数模型：如Turing-NLG

GPT3-Language Models are Few-Shot Learners

paper链接：https://arxiv.org/abs/2005.14165
github链接：https://github.com/openai/gpt-3

无需finetune
- finetune缺点：
  - 过分依赖领域数据
  - 数据少，会过拟合（非常容易……）
目标：用更少的领域数据、且不经过精调步骤去解决问题。
参数量：
仍是单向，在预测新的token时会对之前的examples进行编码。
GPT-3在Few-shot设定下，在部分NLU任务上超越了当前Fine-tuning的SOTA。

GPT1-3（GPT3/few-shot,无需finetune）

参考

paper链接：https://arxiv.org/abs/2005.14165
GPT-3诞生，Finetune也不再必要了！NLP领域又一核弹！