“专业彩票指导,每天稳赚800,详情加我微信
。”
类似上面这样的垃圾信息,相比大家在 上冲浪的时候多多少少都有遇到过,这可真是让众多用户以及互联 平台都不胜其扰。
而与上面这些发垃圾信息的黑灰产做智能对抗和AI屏蔽的当然就是各家人工智能安全团队啦。
人工智能安全是人工智能和信息安全交叉的研究领域,人工智能系统自身的安全性问题一直以来都户可以通过对文本中的违规内容进行变形变异,从而达到绕开模型识别检测的目的。
但是文本对抗门槛低、成本低等特点,导致文本内容风控场景中的对抗博弈异常激烈,这种对抗给智能风控体系带来了巨大挑战。
道高一尺魔高一丈,这年头连发垃圾信息的黑灰产都学聪明了,他们现在也在想各种办法来躲避一些垃圾关键词的屏蔽,一个实例就是如下图所示这样,把赚改成贝兼,把加微信改成加葳……
还有诸如人身攻击的言论,把智障改成智樟。
图1:真实应用场景中的对抗文本(红色字体为变异词)
为了应对如上这种挑战,以解决对抗场景中风控模型性能衰减的问题,浙江大学与阿里安全图灵实验室提出了基于对抗关系图的文本对抗防御技术(AdvGraph)。
通过长期的攻防对抗,阿里安全科学家李进锋发现恶意用户进行文本对抗并不是没有章法可循,而这个章法就是知识,如基于人的感知能力和认知能力的形近变异、音近变异。
这种对抗变异关系通常是多对多的关系,即一个字可以有多个变体字,同时这个字也可以是多个不同字的变体,并且这种变异关系通常是基于语言学和语音学知识构建的,因此研究者将其称之为对抗知识。
图2:基于对抗关系图的文本对抗防御框架
在本研究中,研究者首次提出了基于图模型来建模对抗知识。
研究者首先采用知识+数据驱动的方式,基于语言学和语音学知识来构建对抗关系图,图中的每个节点表示一个字符,如果两个字符音近或者形近,则对应的节点之间形成一条边,表示存在对抗变异关系。
接着,研究者利用图嵌入算法学习每个节点的向量表示来表征对抗关系图中的对抗知识。
最后通过融合对抗表征和语义表征实现对抗知识注入,达到增强模型鲁棒性的目的。
与现有的技术相比,阿里安全图灵实验室的优势在于,阿里安全的内容风控系统建模的是对抗关系,这种关系是与场景无关的,因此学到的对抗知识表征是通用的,可以直接复用到各个场景。
对抗关系图构建和对抗知识表征可以离线完成,并且只需训练一次即可应用到各个场景;基于对抗关系图,可以解决更复杂的多跳变异问题,如微 (wei) 威 (wei) 崴 (wai)。
目前该方法以及论文已经发表在国际会议ICASSP 2021(International Conference on Acoustics, Speech and Signal Processing)上。
论文链接:
https://arxiv.org/pdf/2102.11584.pdf
同时,阿里安全团队将防御框架应用到了手机淘宝、旺旺反垃圾场景,取得了不错的应用效果。
论文工作总结
对两个实际任务的广泛评估表明,AdvGraph在抵抗用户产生的模糊文本和自适应对抗攻击方面表现出了优异的性能,并且对模型性能没有负面影响。
图注:AdvGraph在抵抗用户产生的模糊文本上的性能
图注:AdvGraph在自适应对抗攻击方面上的性能
虽然目前该方法仅适用于中文任务,但研究者认为它的基本思想可以推广到其他语言,比如英语,评估其跨语言的可推广性是一项很有前途的工作。(更多论文方法细节请查看原论文。)
不过,在研究者改革技术,对抗不断变异的垃圾文本之外,还有令人啼笑皆非的“规则”对抗。
“不到黄河心不死、不撞南墙不回头的对手比较难搞。”阿里安全科学家李进锋对AI科技评论说道。
他们曾经遇到一个黑灰产从业者发布引流兼职的垃圾消息,开始时黑灰产明目张胆的发“加微”,很容易就被系统识别拦截了,慢慢地他开始与垃圾信息检测机制对抗,改成发“伽威”,但还是被系统识别拦截了,最后又改成发“伽崴”,可以看到他的整个对抗轨迹是“微”“威”(音近关系) “崴”(形近关系),但由于研究者通过对抗关系图建模了这种对抗知识,即便是二跳的变异,也可以轻松搞定。
“故事到这儿还没结束,这哥们儿没有死心。有一天就收到了来自于这哥们儿的投诉工单,说我们‘滥杀无辜’,而且还有截图‘为证’,并且从截图的内容来看,他确实没有发任何违规内容。”
李进锋说,当时自己内心是惶恐的,生怕真的拦截错误,所以收到投诉后连忙排查识别链路和处罚记录,看看到底是那个环节出了问题。最后,他却发现这个“用户”之所以又被处罚,还是因为发送垃圾消息“伽莪”,而投诉工单里的截图只是他的障眼法,不得不“佩服”这哥们儿的“勇气”和“机智”。
“也正是因为有了这些毅力坚定的对手,我们再可以不断地打磨我们的防控能力,不断地提升我们的整体防控水位。”李进锋说。
论文一作简介
李进锋,阿里安全算法工程师,浙江大学计算机硕士,主要研究方向为人工智能安全、数据驱动安全、神经 络可解释性,在USENIX Security、NDSS、ICASSP等学术会议上发表多篇论文,目前主要从事内容安全风控相关工作,利用算法技术解决旺旺、手淘交互社区等业务场景中安全和对抗问题。
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!