ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架

机器之心专栏

论文地址：https://openreview.net/forum?id=W9G_ImpHlQd

项目地址：https://github.com/damon-demon/Black-Box-Defense

Trustworthy ML Initiative：https://www.trustworthyml.org/home

zoom 线上地址：https://us02web.zoom.us/j/83664690773?pwd=WlJOQzJDY0lHVm0rVjNsaEJWazhDdz09

1. 背景

机器学习模型，尤其是深度神经络，在各种预测任务中有着卓越的表现，但是这些模型通常缺失鲁棒性（robustness）。例如，在输入上添加一些人眼难以察觉的对抗扰动（adversarial perturbation）会导致神经络误判。目前有很多工作研究对抗攻击（adversarial attack），并成功应用在了不同应用场景上，比如：图片分类，物体识别，图片重建。受害模型（victim model）可分为白箱模型（所有模型信息可以被攻击者得到），黑箱模型（模型信息不可知）。

是否有可能设计一个针对黑箱的防御方法？（训练过程中仅使用输入和模型的输出作为训练数据）

2. 问题阐述

3. 方法

一阶优化（first-order optimization， FO）需要梯度可求，而零阶优化（zeroth-order optimization， ZO）则不需要。零阶优化会通过函数输出间的差来估算梯度。

随机梯度估算（random gradient estimation，RGE）是在原输入上加相同形状的随机变量，并通过其输出与原输出的差来进行梯度估计，如下图。其中,

变量，

为平滑参数（smoothing parameter），

为 q 个随机变量。随机梯度估算不稳定，需要增加 q 值，才能增强其稳定性，而运算量也会成倍上升。另外一种方法则是坐标梯度估算（coordinate gradient estimation， CGE），每次仅改变一个位置上的元素的值，并求出其对应的梯度，反复进行 d 次，如下方公式。虽然坐标梯度估算更加稳定，但是当变量的维度 d 很大时，运算量会大到难以接受。这也就是为什么，零阶优化目前仅用于对抗攻击的生成，因为对抗扰动的维度是图片类似的维度，而模型参数的维度远远大于图片的维度。显然，直接使用零阶优化更新模型参数对于黑箱防御这个任务是行不通的。

利用链式法则（chain rule），降噪器参数的梯度求解可以被分解成两部分，如下方公式。进而，只需要估算出降噪器输出的梯度即可，然而降噪器输出的维度与图片维度相当，依然无法使用坐标梯度估计。

FO-DS 和 ZO-DS 分别为降噪平滑的一阶优化版本和零阶优化使用随机梯度估算的版本。如下表所示，使用随机梯度估计，并不能得到理想的效果，与一阶优化结果相比有着明显差距。

4. 试验

半径下的认证准确率（certified accuracy，CA）。值得注意的是，当

下方表格和图表是在 CIFAR-10 数据集上的实验结果。

首先，在使用不同的 q 值的情况下，ZO-AE-DS 的效果都远超 ZO-DS。

第二，使用 CGE 的 ZO-AE-DS 取得了零阶优化方法中最好的效果，甚至达到了比 FO-DS 更好的效果，这归功于自编码器的引入。ZO-AE-DS 黑箱防御框架解决了零阶优化在高维度变量下无法使用的难题。

第三，可以看出，使用一阶优化直接更新目标络参数的随机平滑取得了最好的效果，但这是在所难免的。

下面是将 ZO-AE-DS 扩展到图像重建任务上、在 MNIST 数据集上得到的结果。可以看到，将 ZO-AE-DS 黑箱防御框架应用到图像重建任务上时依然可以达到与 FO-DS 相似的效果，这证明了 ZO-AE-DS 黑箱防御框架的有效性以及可扩展性。

5. 总结与讨论

张益萌，密歇根州??学OPTML 实验室，计算机博士在读，研究兴趣?向包括AI安全、 3D/2D计算机视觉、多模态、模型压缩。

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架

相关推荐