清华打破强化学习安全性悖论，14项测试基准任务全SOTA,清华大学安全测评答案

新智元报道

编辑：LRST

【新智元导读】清华大学李升波教授团队提出RACS算法，通过引入「探险者」策略主动探索违规边界，破解安全强化学习的「安全性悖论」。该方法在不增加采样成本的前提下，显著提升违规样本质量与系统安全认知，实现安全与性能的双赢，刷新多项基准的SOTA成绩。

随着强化学习（RL）在虚拟世界的统治级表现，将其迁移至自动驾驶、机器人控制等真实物理系统已成为行业共识。然而，物理世界的高风险特性画出了一道不可逾越的红线——「零约束违反」。

为了守住这道红线，学界提出了多种方案：OpenAI结合拉格朗日乘子法动态权衡安全与性能，UC Berkeley提出的CPO算法利用信赖域将策略限制在可行空间内。

然而，现有方法始终面临一个核心痛点：策略难以做到严格的「零违反」。大多数算法只能将违规控制在极低水平，一旦试图追求绝对的零违规，就会遭遇巨大阻力。

清华大学李升波教授课题组于安全强化学习领域获得突破性进展，首次在理论层面揭示并证明了安全强化学习（Safe RL）中的一个反直觉现象——「安全性悖论」（Safety Paradox）：策略越追求安全，反而可能越不安全。

论文链接：https://openreview.net/forum?id=BHSSV1nHvU

代码仓库：https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全强化学习中，智能体通常依赖交互数据学习一个可行性函数（Feasibility Function），以此判断当前状态是否长期安全，从而规避危险区域。

然而，研究通过严格的理论证明揭示了一个严峻事实：

随着策略变得越来越安全，其产生的违规样本会变得极度稀疏。这直接导致可行性函数的估计误差急剧增大，进而使指导策略优化的约束函数出现偏差，最终导致策略安全性崩塌。

这就像一个从未见过悬崖的人，在行走时即便再小心翼翼，也会因为缺乏对「悬崖边缘」的确切认知，而无法精准判断危险界限究竟在哪里。越是刻意追求安全，对危险边界的认知就越模糊，最终反而导致安全防线失效。这就是所谓的「安全性悖论」——策略陷入了一个自我挫败的死循环。

针对这一困境，团队提出了Region-wise Actor-Critic-Scenery（RACS）算法，通过引入专门收集违规样本的「探险者」策略，成功打破悖论，在权威基准Safety-Gymnasium上刷新了SOTA成绩，该工作发表于人工智能顶会ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」会导致认知盲区，那么破解之道便是主动探险、直面危险。

研究团队提出了Region-wise Actor-Critic-Scenery（RACS）算法，创造性地引入了双策略架构：

（1）原始策略（Primal Policy）：扮演「守规矩的执行者」。它负责在满足安全约束的前提下，尽可能最大化任务奖励。

（2）对偶策略（Dual Policy）：扮演「无畏的探险者」。它的目标与前者相反，旨在策略性地最大化约束违反，主动触探原始策略不敢涉足的危险边界。

通过这种「左右互搏」的机制，RACS在不增加总采样成本的前提下，显著提升了关键违规样本的比例，从而让系统对「安全边界」有了清晰、精准的认知。

为了解决双策略数据混合带来的分布偏移（Distributional Shift）问题，RACS采用了重要性采样（Importance Sampling）技术进行数学修正，并约束对偶策略与原始策略间的KL散度，确保训练过程的平稳收敛。

实验结果：刷新SOTA

研究团队在安全强化学习权威基准Safety-Gymnasium上进行了广泛验证。结果表明，RACS在14项任务中的综合性能达到了State-of-the-art（SOTA）水平：

（1）安全性显著提升：RACS实现了最低的平均约束违反次数（Cost），显著优于现有的拉格朗日乘子法或信赖域方法。特别是在HalfCheetahVelocity、Walker2dVelocity等任务中，实现了严格的零约束违反。

（2）控制性能无退化：在保证安全性的同时，RACS的平均累积回报（Return）依然位居榜首，实现了安全与性能的双赢。在高维的HumanoidVelocity、复杂的PointPush（推箱子导航避障）等多项高难度任务中，安全指标与任务性能均名列前茅。

为探究性能提升的根本原因，研究团队统计了增加对偶策略后的关键指标变化：

（1）违规样本显著增加：在所有 14 项任务中，对偶策略成功采集了大量高价值的违规样本，大部分任务中的样本量提升了一个数量级。

（2）估计误差大幅降低：统计显示，可行性函数的拟合误差显著减小，尤其是「低估风险」（误差小于零）的频率大幅降低。这意味着系统不再将危险状态误判为安全，从而从根本上提升了策略的安全性。

总结与展望

该研究从理论上揭示了强化学习中的「安全性悖论」，阐明了违规样本稀疏性与可行性函数估计误差之间的内在因果。

RACS算法通过对偶策略的「对抗式」探索打破了「安全性悖论」，证明了一个深刻的道理：为了真正的安全，必须充分地了解危险。

该研究为自动驾驶、机器人等高风险场景下的强化学习落地提供了坚实的理论基础与有效的解决方案。

参考资料：

https://openreview.net/forum?id=BHSSV1nHvU