机器之心专栏
1. 背景
机器学习模型,尤其是深度神经 络,在各种预测任务中有着卓越的表现,但是这些模型通常缺失鲁棒性(robustness)。例如,在输入上添加一些人眼难以察觉的对抗扰动(adversarial perturbation)会导致神经 络误判。目前有很多工作研究对抗攻击(adversarial attack),并成功应用在了不同应用场景上,比如:图片分类, 物体识别,图片重建。受害模型(victim model)可分为白箱模型(所有模型信息可以被攻击者得到),黑箱模型(模型信息不可知)。
是否有可能设计一个针对黑箱的防御方法?(训练过程中仅使用输入和模型的输出作为训练数据)
2. 问题阐述
3. 方法
一阶优化(first-order optimization, FO)需要梯度可求,而零阶优化(zeroth-order optimization, ZO)则不需要。零阶优化会通过函数输出间的差来估算梯度。
随机梯度估算(random gradient estimation,RGE)是在原输入上加相同形状的随机变量,并通过其输出与原输出的差来进行梯度估计,如下图。其中,
变量,
为平滑参数(smoothing parameter),
为 q 个随机变量。随机梯度估算不稳定,需要增加 q 值,才能增强其稳定性,而运算量也会成倍上升。另外一种方法则是坐标梯度估算(coordinate gradient estimation, CGE),每次仅改变一个位置上的元素的值,并求出其对应的梯度,反复进行 d 次,如下方公式。虽然坐标梯度估算更加稳定,但是当变量的维度 d 很大时,运算量会大到难以接受。这也就是为什么,零阶优化目前仅用于对抗攻击的生成,因为对抗扰动的维度是图片类似的维度,而模型参数的维度远远大于图片的维度。显然,直接使用零阶优化更新模型参数对于黑箱防御这个任务是行不通的。
利用链式法则(chain rule),降噪器参数的梯度求解可以被分解成两部分,如下方公式。进而,只需要估算出降噪器输出的梯度即可,然而降噪器输出的维度与图片维度相当,依然无法使用坐标梯度估计。
FO-DS 和 ZO-DS 分别为降噪平滑的一阶优化版本和零阶优化使用随机梯度估算的版本。如下表所示,使用随机梯度估计,并不能得到理想的效果,与一阶优化结果相比有着明显差距。
4. 试验
半径下的认证准确率(certified accuracy,CA)。值得注意的是,当
下方表格和图表是在 CIFAR-10 数据集上的实验结果。
下面是将 ZO-AE-DS 扩展到图像重建任务上、在 MNIST 数据集上得到的结果。可以看到,将 ZO-AE-DS 黑箱防御框架应用到图像重建任务上时依然可以达到与 FO-DS 相似的效果,这证明了 ZO-AE-DS 黑箱防御框架的有效性以及可扩展性。
5. 总结与讨论
张益萌, 密歇根州??学OPTML 实验室, 计算机博士在读, 研究兴趣?向包括AI安全、 3D/2D计算机视觉、 多模态、 模型压缩。
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!