论文解读 | AAAI 2026: 基于自适应扰动的黑盒多智能体可靠性测试

2025-12-26

5364

艾思科蓝官网-版头.gif

近日，软件所天基综合信息系统全国重点实验室与智能博弈重点实验室合作研究的论文“Adversarial Attack on Black-Box Multi-Agent by Adaptive Perturbation” CCF-A类人工智能顶级学术会议The 40th Annual AAAI Conference on Artificial Intelligence（AAAI-26)接收。该论文提出了一种面向黑盒多智能体系统的对抗性攻击框架，结合自适应选择策略与模仿学习代理模型，实现高效且隐蔽的多智能体安全测试，有效弥补现有方法在实用性与隐蔽性方面的不足。

论文具体信息如下：

论文题目：Adversarial Attack on Black-Box Multi-Agent by Adaptive Perturbation

论文作者：陈建明、王亚文、王俊杰、谢肖飞、胡渊喆、王青、徐帆江

通讯作者：王亚文，王俊杰，徐帆江

Part1 概述

随着多智能体系统在各种应用中的日益普及，对其安全性和可靠性进行评估显得尤为迫切。现有的多智能体系统对抗性攻击框架作为评估技术存在一定局限性，例如因需要白盒信息或高控制权限而缺乏实用性。另外，这些方法由于通常针对所有智能体或特定固定智能体，其隐蔽性或有效性不足。为解决这些问题，本文提出AdapAM——一种针对黑盒多智能体系统的对抗性攻击框架。AdapAM包含两个核心组件：（1）自适应选择策略能同时选择受害智能体并确定预期恶意动作（该动作将对多智能体系统造成最严重影响），在有效性与隐蔽性之间实现平衡；（2）基于代理的诱导恶意动作扰动，利用生成对抗模仿学习来近似目标多智能体系统，使AdapAM能够借助白盒信息生成扰动观测，从而在黑盒环境中诱导受害者执行恶意动作。本文在八个多智能体环境中对AdapAM进行评估，并与四种先进常用基线方法进行比较。结果表明，AdapAM在不同扰动率下均能实现最佳攻击性能。此外，AdapAM生成的扰动噪声最少且最难被检测，凸显了其卓越的隐蔽性。

Part2 问题陈述

一个多智能体系统（Multi-Agent System, MAS）由一组智能体组成，每个智能体拥有独立的局部观测空间和动作空间。MAS通常维护内部协作机制以集体完成任务（例如，对抗另一个MAS或实现某些目标）。

攻击者的目标：先前的工作已经表明，仅攻击少量最关键的智能体就可以显著降低目标MAS的性能。因此，如果可以自适应地在每个时间步骤选择一个受害值智能体，它可以避免扰动大量智能体以确保隐蔽性。另一方面，受害值智能体需要对目标MAS有足够的影响力以确保攻击的有效性。基于此，攻击者的目标是在每个时间步骤自适应地选择一个受害值智能体，使用扰动诱导其执行特定的恶意动作以降低MAS的性能。

攻击者的能力：在攻击的部署阶段，攻击者只能操纵提供给受害值智能体的状态观测，通过扰动来误导其策略。这是一个严格的设置，可以通过给智能体摄像头添加一个补丁作为扰动来实现。我们假设目标MAS策略是固定的，即部署阶段的参数被冻结。最后，攻击遵循严格的黑箱设置，不需要访问用于训练或构建代理及其网络架构的算法。

Part3 方法

本文提出了一种自适应选择受害值智能体并确定对目标MAS的恶意行为的框架AdapAM。受害值智能体代表目标MAS中最关键的智能体，而恶意行为是指通过干扰受害值的观测而导致的对目标MAS造成最坏影响的行为。AdapAM利用基于模仿学习得到的代理模型的白盒信息生成观测扰动，如下图所示，AdapAM主要由两个模块组成：自适应选择策略和基于代理诱导恶意行为的扰动。

如前所述，目标MAS由n个与环境交互的智能体组成，每个智能体扮演不同的角色，其行为具有不同程度的影响。为了在有限的攻击预算下最大化攻击的效果，需要根据环境状态选择最重要的受害值和最具恶意的攻击行为，为此，本文设计了一种自适应选择策略来选择受害值智能体及其特定恶意行为，其训练目标是在有限的攻击预算条件下，尽可能地降低整个MAS的性能。

为了误导目标MAS在黑盒环境下执行其行为，需要事先训练代理智能体，使代理智能体的策略与目标智能体的策略近似，保证两者之间的可迁移性。具体来说，我们基于多智能体生成对抗模仿学习技术，训练代理智能体。利用代理模型提供的梯度信息，我们可以采用白盒方法生成一个扰动观测，对应于期望的恶意行为，然后将扰动观测注入到受害值智能体的观测中，有效地诱导其执行恶意行为。

Part4 实验

实验在八个广泛使用的多智能体环境中进行，包括StarCraft Multi-Agent Challenge (SMAC)、Google Research Football (GF) 和 Multi-Agent Particle Environments (MPE)。每个基准选择两到三个环境，主要对攻击性能和攻击隐蔽性进行评估。

攻击性能：在所有环境中，AdapAM显著降低了目标MAS的奖励和胜率。在智能体数量少于10的环境中，AdapAM优于所有基线方法。只有在智能体数量较多（20个以上）的SMAC-bane vs bane和SMAC-27 m vs 30 m环境下进行攻击时，AdapAM才没有达到最佳性能，略弱于基线方法MASafe。而MASafe扰动所有智能体，我们只选择一个智能体进行攻击。即使在扰动智能体的数量上有显著差异，AdapAM也不会落后于MASafe太多，这进一步说明了选择受害值智能体和恶意行为的重要性。

隐蔽性：首先，AdapAM添加的扰动幅度最小，优于基线。此外，AdapAM是最难被攻击检测方法检出的。尽管MASafe的攻击性能几乎与AdapAM相当，隐蔽性实验结果表明，MASafe的隐蔽性最差。原因在于，MASafe的高攻击性能是因为其以一种根本不考虑隐蔽性的方式将扰动应用于所有智能体。反之，AdapAM通过自适应策略选择一个受害者智能体来保证隐蔽性，并利用代理模型的白盒信息制作微小的扰动，从而保证隐蔽性。