论文笔记:NAS-BENCH-1SHOT1: BENCHMARKING AND DISSECTING ONE-SHOT NEURAL ARCHITECTURE SEARCH
@论文笔记:[NAS-BENCH-1SHOT1: BENCHMARKING AND DISSECTING ONE-SHOT NEURAL ARCHITECTURE SEARCH]
发表会议:ICLR2020
动机:为了支持多种nas算法在统一的环境下公平比较各自优势,以及更加廉价的比较不同超参数组合对各自算法的影响,研究者耗费较大算力,运行目前主流的darts算法,制作了一套数据集,包括不同搜索空间,几十万种神经网络结构。
实验:
搜索空间表示:
Network-Level Topology:
Cell-Level Topology:和darts定义的空间相同或者类似,采取有向无环图定义一个cell。
三种搜索空间定义:
NAS算法:
不同nas算法在不同搜索空间运行结果
六种nas算法在三种同样的搜索空间里运行结果:
所有实验在一块rtx2080ti上进行,
从上图可以看到:
1)验证误差和测试误差并没有呈现完全的相关性,比如PC-DARTS,在验证误差逐步下降的过程中,测试误差在开始阶段先有了一定的提高再开始降低。
2)不同的算法在不同搜索空间变现不同,比如在搜索空间1中,PC-DARTS表现最好,但在其余两种空间里表现并不是最优。
3)总体来说,GDAS在三个搜索空间内表现相对较好,但可以看出容易在较少的epoch内陷入局部最优。
4)ENAS和Random WS效果在三个搜索空间上最差,这是由于nasbench101上的模型与搜索过程中架构的真实性能评估没有相关性。但是当将搜索迭代次数设置为100时,在搜索空间2上,ENAS展现了比Random WS更好的性能。
相关性分析:
DARTS, PC-DARTS, GDAS and Random WS并没有呈现较好的相关性。这个相关性是指在nasbench上的测试精度和其真实精度的相关性。
鲁棒性
nas方法使用正则化方法可以改善搜索的结果,主要有cutout(数据增强的一种)和权重衰减两种,在搜索空间三使用不同的衰减因子,不同算法搜索效果如下:
1)尽管之前的研究证明darts存在过拟合的现象,但这次实验表明gdas和pcdarts同样存在这一现象,如图4.(b)和图4. (c)所示。
2)在此搜索空间上,gdas和pcdarts当衰减系数为27e-4时,效果最优。
3)有趣的是,相同的正则化系数在不同搜索空间里得到的性能表现类似,如下图所示。
超参数的可调性
使用BHBO进行超参调优。
1)在所有的搜索空间内,使用BHBO都取得了比原darts默认参数更优的结果。
2)相比其他黑盒优化方法, Regularized Evolution在nasbench定义的搜索空间上表现最优。
3)找到的最优参数组合不仅避免了nas方法的过拟合,同时得到的架构取得了最优性能。
4) BOHB中的多保真不仅仅加速了nas搜索的过程,同时允许更多epoch的搜索以期得到更优的架构。
在一个搜索空间内得到的超参数是否具有迁移性?
实验表明没有明显的关系。
不同正则化系数对于架构性能的影响