位置:编程技术网 > 云计算 > 正文 >

ICML 2020

2020年07月22日 06:18来源:未知手机版

林青霞旧照,建材招聘,河北卫视在线直播

作者:陈相宁

可微网络架构搜索能够大幅缩短搜索时间,但是稳定性不足。为此,UCLA 基于随机平滑(random smoothing)和对抗训练(adversarial training),提出新型 NAS 算法。

可微网络架构搜索(DARTS)能够大幅缩短搜索时间,但是其稳定性受到质疑。随着搜索进行,DARTS 生成的网络架构性能会逐渐变差。最终生成的结构甚至全是跳过连接(skip connection),没有任何卷积操作。在 ICML 2020 中,UCLA 基于随机平滑(random smoothing)和对抗训练(adversarial training),提出了两种正则化方法,大幅提升了可微架构搜索算法的鲁棒性。

论文:https://arxiv.org/abs/2002.05283

代码:https://github.com/xiangning-chen/SmoothDARTS

近期,可微架构搜索算法将 NAS 搜索时间缩短至数天,因而备受关注。然而,其稳定生成高性能神经网络的能力受到广泛质疑。许多研究者发现随着搜索进行,DARTS 生成的网络架构反而越来越差,最终甚至会完全变为跳过连接(skip connection)。为了支持梯度下降,DARTS 对于搜索空间做了连续化近似,并始终在优化一组连续可微的框架权重 A。但是在生成最终框架时,需要将这个权重离散化。

本研究作者观察到这组连续框架权重 A 在验证集上的损失函数非常不平滑,DARTS 总是会收敛到一个非常尖锐的区域。因此对于 A 轻微的扰动都会让验证集性能大幅下降,更不用说最终的离散化过程了。这样尖锐的损失函数还会损害搜索算法在架构空间中的探索能力。

于是,本文作者提出了新型 NAS 框架 SmoothDARTS(SDARTS),使得 A 在验证集上的损失函数变得十分平滑。

该工作的主要贡献包括:

提出 SDARTS,大幅提升了可微架构搜索算法的鲁棒性和泛化性。SDARTS 在搜索时优化 A 整个邻域的网络权重,而不仅仅像传统可微 NAS 那样只基于当前这一组参数。第一种方法优化邻域内损失函数的期望,没有提升搜索时间却非常有效。第二种方法基于整个邻域内的最差损失函数(worst-case loss),取得了更强的稳定性和搜索性能。

在数学上,尖锐的损失函数意味着其 Hessian 矩阵范数非常大。作者发现随着搜索进行,这一范数极速扩大,导致了 DARTS 的不稳定性。而本文提出的两种框架都有数学保障可以一直降低 Hessian 范数,这也在理论上解释了其有效性。

最后,本文提出的方法可以广泛应用于各种可微架构算法。在各种数据集和搜索空间上,作者发现 SDARTS 可以一贯地取得性能提升。

具体方法

传统>

因此作者希望最终获得的连续框架在大幅扰动,例如离散化的情况下,仍然能保持高性能。这也意味了损失函数需要尽可能平滑,并保持很小的 Hessian 范数。因此本文提出在搜索过程中即对 A 进行扰动,这便会让搜索算法关注在平滑区域。

SDARTS-RS 基本随机平滑(random smoothing),优化 A 邻域内损失函数的期望。该研究在均匀分布中采样了随机噪声,并在对网络权重 w 进行优化前加到连续框架权重 A 之上。

这一方法非常简单,只增加了一行代码并且不增加计算量,可作者发现其有效地平滑了在验证集上的损失函数。

SDARTS-ADV 基于对抗训练(adversarial training),优化邻域内最差的损失函数,这一方法希望最终搜索到连续框架权重 A 可以抵御最强的攻击,包括生成最终架构的离散化过程。在这里,我们使用 PGD (projected gradient descent)迭代获得当前最强扰动。

整个优化过程遵循可微 NAS 的通用范式,交替优化框架权重 A 和网络权重 w。

本文地址:http://www.reviewcode.cn/yunjisuan/158733.html 转载请注明出处!

今日热点资讯