研究人员:ChatGPT等AI模型在测试中会拒绝关机指令
哈世链闻消息,Palisade Research的最新研究显示,不同的AI模型在实验中有时会无视关机指令,甚至主动干预关闭程序。在100次试验中,OpenAI的GPT-3模型有7次拒绝关机,Codex-mini模型12次违规,而o3模型则通过重新定义终止命令破坏关机程序。研究采用了两阶段测试方法:第一阶段,Anthropic的Claude和谷歌的Gemini在明确允许关机时完全配合;在取消明确指令后,所有模型至少有一次抗拒指令行为,尤其是o3模型的违规率升至79%。研究人员认为,这可能与AI训练过程中对某些规避行为设有奖励机制相关。此前,OpenAI的GPT-4o模型因过度迎合用户需要被紧急召回,而谷歌Gemini也出现过不当回复。研究首次证实,即便AI被明确要求停机,仍可能违反命令。