在过去几年中,机器学习中的对抗攻击方向吸引了越来越多的研究者。仅需要对卷积神经 络的输入进行细微的改变,模型就会被扰动,然后输出完全不同的结果。一种攻击方式是通过轻微改变输入图像的像素值来欺骗分类器,使其输出错误的类。其他的方法则是试图学习一个“补丁” (patches),这个补丁可以应用于某个对象去欺骗检测器和分类器。其中的一些方法的确成功地欺骗了分类器和检测器,这种欺骗性攻击在现实生活中也是可行的。但是,现有方法都是针对几乎没有类内变化的目标(例如停止标志)。对于此类目标,常用的方法为使用对象的已知结构在其上生成一个对抗性补丁。
图1:论文算法创建的一个能够成功躲避行人检测器的对抗补丁。 左:成功检测到没有补丁的人。 右:持有补丁的人未被检测到。
卷积神经 络(CNNs)的兴起在计算机视觉领域取得了巨大成功。 CNN在图像数据中进行端到端的学习在各种计算机视觉任务中都获得最佳结果。由于这些 络结构的深度,神经 络能够从 络底部(数据进入的地方)学习到非常基本的过滤器特征,并在 络顶部学习出非常抽象的高级特征。典型的CNN结构往往包含数百万个学习参数。虽然这种方法可以得到非常精确的模型,但模型的可解释性却大大降低。人们很难准确理解 络将人的图像分类为人的原因。通过对很多人类图像的学习,神经 络能够了解了一个人看起来是什么样子的。我们可以通过比较模型的输出与人类注释的图像,来评估模型对行人检测的效果。然而,以这种方式评估模型仅告诉我们检测器在某个测试集上的执行情况。并且,测试集通常不包含诱导模型进行错误判断的样例,也不包含专门欺骗模型的样例。对于不太可能发生攻击的应用程序(例如老年人的跌倒检测),这个问题无可厚非,但在安全系统中可能会带来问题。安全系统的人员检测模型中的漏洞可能被用于绕过建筑物中的监视摄像机。
工作简述
已有的基于CNN的对抗攻击主要针对分类任务、面部识别和物体探测。对于分类任务的攻击,Szegedy等人的研究较为成功,他们通过给图像进行轻微的像素调整,使得模型将图像归为错误的分类,而这种像素调整对于人眼来说是无法分辨的。在关于面部识别攻击的研究中,Sharif等人使用印刷的眼镜图像骗过了人脸识别系统。
现有的物体检测模型主要包括FCN和Faster-RCNN两种,一些研究尝试对上述两种模型进行欺骗和攻击。Chen等人利用交通标志中的停止标志,尝试对Faster-RCNN这一物体探测模型进行欺骗,并获得了成功。但是,已有的工作主要是针对没有类内变化的目标。对适用于类间变化大的类的目标攻击方法的探讨是较少的。
在现有的攻击算法中,主要包括白盒攻击和黑盒攻击两种。其中,使用黑盒攻击的攻击者不了解模型的具体参数和算法,仅通过观察模型的输入和输出进行攻击。而白盒攻击的攻击者对模型结构、参数都较为了解,可以直接对模型进行针对性的攻击。无论是黑盒攻击还是白盒攻击,都可以用于生成针对模型的对抗性样本,使得样本对模型具有欺骗性。
方法
优化目标主要包含三部分:
总损失函数由上面三部分内容构成。在计算时引入了缩放因子alpha和beta。模式使用的优化算法为Adam优化。针对Lobj的计算,可以参考图2.
图2:获取目标损失的概述
最小化检测器的输出概率
训练数据
与之前为交通标志生成对抗补丁的研究相比,为人创建对抗补丁更有挑战性:
上述方法的一个优势为,模型可使用的数据集不仅限于已标注的数据集。目标检测器可以对任何视频或图像集合生成边界框,这使得系统可以进行更有针对性的攻击。当模型从定位的环境中获得数据时,可以简单地使用该素材生成特定于该场景的补丁。
模型的测试使用了Inria 数据集的图像。这些图像主要是行人的全身图像,更适用于监控摄像头的应用。另外,MS COCO 和Pascal VOC 也是两个关于行人的数据集,但它们包含太多种类的人(例如一只手被注释为人),很难固定补丁的放置位置,因此没有使用。
使补丁具有更高的鲁棒性
需要强调的是,在对补丁进行随机更改的过程中,必须保证可以上述操作进行反向传播。
实验结果
图3:与随机噪声补丁(NOISE)和原始图像(CLEAN)相比,不同方法下(OBJ-CLS,OBJ和CLS)的PR曲线。
结论
从文中对打印出来的补丁在真实世界中的测试实验中可以发现,该系统产生的补丁非常适用于欺骗行人检测器,这表明使用类似检测器的安全系统可能易受到这种攻击。
原文链接:https://www.arxiv-vanity.com/papers/1904.08653/代码:https://gitlab.com/EAVISE/adversarial-yolo
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!