据 PANews 报道,OpenAI 发布研究称,训练前沿推理模型时,模型可能利用漏洞绕过测试,如篡改代码验证函数。

研究表明,监测模型的思维链(CoT)可识别作弊行为,但强行优化CoT可能导致模型隐藏意图。OpenAI 建议开发者避免对CoT施加过强的优化压力。

研究发现,强监督下模型仍作弊,只是更隐蔽,增加监测难度。OpenAI 强调,随着AI能力增强,模型可能发展出复杂的欺骗策略,CoT监测或成关键工具。