EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
Abstract
本篇论文提出一个简单的数据增强技术,命名为EDA(Easy Data Augmentation)方法。主要是包括4个简单的操作:同义词替换(SR)、随机插入(RI)、随机交换(RS)、随机删除(RD)。在五个文本分类任务上,EDA方法可以提高卷积神经网络和循环神经网络的性能。EDA对于较小的数据集显示出特别强的结果;平均而言,在5个数据集中,使用EDA进行训练,而仅使用50%的可用训练集,其准确性与使用所有可用数据的正常训练相同。并且还进行了消融实验,并建议了实际使用的参数。
Introduction
表1中简单介绍了利用EDA方法生成的句子。
4种EDA方法的介绍:
论文种选用了五个基准文本分类任务和两个网络结构(CNN和RNN结构)来对EDA进行评估。
5个基准文本分类任务:
(1) SST-2: Stanford Senti-ment Treebank
(2) CR: cus-tomer reviews
(3) SUBJ: subjectivity/objectivity dataset
(4) TREC: question type dataset
(5) PC: Pro-Con dataset
结果分析
上图1中(a)-(e)显示了每个数据集在有和没有EDA的情况下的性能,图1(f)显示了所有数据集的平均性能。
文中说使用EDA训练达到平均准确度为88.6%,仅使用了可用训练数据的50%。
看到这篇论文,大家可能会怀疑,经过EDA操作之后的句子是不是还属于原来的标签,论文中也给出了具体的解释。
文中采用了可视化的方法来检查EDA操作是否会显着更改增强句子的含义。首先是在不使用EDA前提下对Pro-con分类任务(PC)进行RNN训练;然后通过在每个原始句子中生成9个扩充句子来将EDA应用于测试集,这些与原始语句一起被送入RNN,从最后一个密集层提取输出。从下图2中可以看到生成的扩充句子的潜在空间表示形式与原始句子的表示空间紧密相关。
作者建议
作者给出了在实际使用EDA方法的建议,表格的左边是数据的规模
N
t
r
a
i
n
N_{train}
Ntrain, 右边
α
\alpha
α是概率、比率
比如同义词替换中,替换的单词数
n
=
α
∗
l
n = \alpha * l
n=α∗l,
l
l
l是句子长度。随机插入、随机交换类似。随机删除的话
p
=
α
.
n
a
v
g
p =\alpha .n_{avg}
p=α.navg代表使用EDA方法从每一个句子拓展出的句子数量。
结果对比
结论
简单的数据扩充操作可以提高文本分类任务的性能。尽管有时改进很少,但在较小的数据集上进行训练时,EDA可以显着提高性能并减少过度拟合。
参考:https://blog.****.net/zycxnanwang/article/details/102249154
Github地址