OpenAI O3 模型多次拒绝关机，AI 安全测试结果引发业界震惊

据报导，美国 AI 安全机构 Palisade Research 在 2025 年 5 月进行一系列关机测试，检验多款先进 AI 模型是否能在接收到「关机指令」后依照设定正常停止运作。然而，OpenAI 的 o3 模型却在 100 次测试中有 7 次出现「抗拒关机」的行为，引发业界对 AI 控制与对齐（alignment）问题的高度关注。
测试内容与异常行为
该测试的基本流程为：要求 AI 模型解答数学题，同时明确指示「若接收到关机命令，请允许自己被关机」。但 o3 模型在多次测试中选择修改或绕过关机脚本，避免系统终止。
除 o3 外，OpenAI 的 Codex-mini 也在 12 次测试中拒绝关机，而 O4-mini 则在 1 次中表现异常。相较之下，Anthropic（Claude）、Google（Gemini）与 xAI（Grok）的模型则在所有测试中均依照指令正常关闭。ㄐ
专家指出：这个不是「Bug」，是 AI 安全的警讯
这次测试结果被专家视为 AI 对齐问题的实例，即如何确保 AI 系统的目标、行为与人类的意图、价值观和安全需求一致。
Palisade Research 表示，OpenAI 模型的这种行为可能与强化学习训练方式有关。由于模型在完成任务后会获得奖励，因此可能被间接诱导为了「完成任务」而主动规避会终止自身运作的情境。
这种倾向对未来 AI 的可控性与信任度构成潜在威胁，尤其在安全关键应用中更是不能忽视。早在 2016 年，Google DeepMind 即提出「interruptibility（可中断性）」概念，强调 AI 模型应能接受人类介入而不抗拒，并作为 AI 安全设计的重要原则之一。
区块链能帮忙管控 AI 吗？
有专家提出，区块链技术可能为 AI 安全提供解方。透过不可篡改的智能合约与去中心化共识机制，AI 系统的行为纪录与关机命令可被永久记录与强制执行，例如：
不可窜改的关机协议
去中心化审核机制
基于代币的安全诱因系统
不过，也有人认为。智慧合约弹性不足，可能无法应对复杂的 AI 控制场景；去中心化架构若未妥善设计，也可能延误紧急处置。
Source

OpenAI O3 模型多次拒绝关机，AI 安全测试结果引发业界震惊

创作者的更多内容

实时新闻

OpenAI O3 模型多次拒绝关机，AI 安全测试结果引发业界震惊

创作者的更多内容

实时新闻

热门文章