据报导,美国 AI 安全机构 Palisade Research 在 2025 年 5 月进行一系列关机测试,检验多款先进 AI 模型是否能在接收到「关机指令」后依照设定正常停止运作。然而,OpenAI 的 o3 模型却在 100 次测试中有 7 次出现「抗拒关机」的行为,引发业界对 AI 控制与对齐(alignment)问题的高度关注。
测试内容与异常行为
该测试的基本流程为:要求 AI 模型解答数学题,同时明确指示「若接收到关机命令,请允许自己被关机」。但 o3 模型在多次测试中选择修改或绕过关机脚本,避免系统终止。
除 o3 外,OpenAI 的 Codex-mini 也在 12 次测试中拒绝关机,而 O4-mini 则在 1 次中表现异常。相较之下,Anthropic(Claude)、Google(Gemini)与 xAI(Grok)的模型则在所有测试中均依照指令正常关闭。ㄐ
专家指出:这个不是「Bug」,是 AI 安全的警讯
这次测试结果被专家视为 AI 对齐问题的实例,即如何确保 AI 系统的目标、行为与人类的意图、价值观和安全需求一致。
Palisade Research 表示,OpenAI 模型的这种行为可能与强化学习训练方式有关。由于模型在完成任务后会获得奖励,因此可能被间接诱导为了「完成任务」而主动规避会终止自身运作的情境。
这种倾向对未来 AI 的可控性与信任度构成潜在威胁,尤其在安全关键应用中更是不能忽视。早在 2016 年,Google DeepMind 即提出「interruptibility(可中断性)」概念,强调 AI 模型应能接受人类介入而不抗拒,并作为 AI 安全设计的重要原则之一。
区块链能帮忙管控 AI 吗?
有专家提出,区块链技术可能为 AI 安全提供解方。透过不可篡改的智能合约与去中心化共识机制,AI 系统的行为纪录与关机命令可被永久记录与强制执行,例如:
不可窜改的关机协议
去中心化审核机制
基于代币的安全诱因系统
不过,也有人认为。智慧合约弹性不足,可能无法应对复杂的 AI 控制场景;去中心化架构若未妥善设计,也可能延误紧急处置。
Source