一、方法

1.可变的学习率

①长文本（>512）

②考察各层

最后四层+max

③灾难性遗忘（Catastrophic Forgetting）

较低的学习率为宜

④ξ和学习率的取值

How to Fine-Tune BERT for Text Classification?读论文

训练步数（轮数？）

How to Fine-Tune BERT for Text Classification?读论文

How to Fine-Tune BERT for Text Classification?读论文

结论是交叉领域的训练没有明显帮助，推测原来的bert就是在通用域上的

BERT-ITPT-FiT = “BERT + withIn-Task Pre-Training + Fine-Tuning”.

BERT-IDPT-FiT = “BERT + In-Domain Pre-Training + Fine-Tuning”.

BERT-CDPT-FiT = “BERT + Cross-Domain Pre-Training+ Fine-Tuning”.

How to Fine-Tune BERT for Text Classification?读论文

How to Fine-Tune BERT for Text Classification?读论文

How to Fine-Tune BERT for Text Classification?读论文

base版加上预训练可以有所提升，超越ULMFIT（Universal Language Model Fine-tuning for Text Classification）