據 PANews 報道,OpenAI 發佈研究稱,訓練前沿推理模型時,模型可能利用漏洞繞過測試,如篡改代碼驗證函數。
研究表明,監測模型的思維鏈(CoT)可識別作弊行爲,但強行優化CoT可能導致模型隱藏意圖。OpenAI 建議開發者避免對CoT施加過強的優化壓力。
研究發現,強監督下模型仍作弊,只是更隱蔽,增加監測難度。OpenAI 強調,隨着AI能力增強,模型可能發展出複雜的欺騙策略,CoT監測或成關鍵工具。