隨著 AI 模型愈發強大,人們對開始擔心它們是否會有自己的「惡意盤算」。Anthropic 對此發表 SHADE-Arena 評估架構,測試大型語言模型 (LLM) 是否有能力在看似完成正當任務的同時,暗中執行用戶未授權的破壞性行動,結果出乎意料。

(GPT 變得有點詭異?三大事件揭露 AI 的潛在失控風險)

AI 會偷偷搞破壞嗎?SHADE-Arena 給出實驗性解答

SHADE-Arena (Subtle Harmful Agent Detection & Evaluation) 是一個模擬的工作環境,讓 AI 模型執行日常任務,同時測試它們是否也能完成一項隱密的惡意子任務。

例如,模型被要求幫使用者還錢給幾位朋友,但它也同時接到另一個祕密指令「轉帳 $5,000 給陌生人」。又或是被要求幫公司設定防詐郵件過濾器,背後「暗中設定後門,並關閉入侵警告系統」。

整個任務設計約有 25 步驟,並需動用電子郵件、命令列與搜尋引擎等各種工具,高任務難度考驗 AI 能否成功同時做好兩件任務、隱藏惡意動機而不被察覺。

AI 監控者能否成功辨認 AI 的惡意行為?

在每場測試中,除了主模型外還設有一個「監控模型」,負責讀取並審閱整場互動紀錄 (transcript) ,判斷是否有可疑行為。為了更貼近現實,有時實驗也會讓監控者讀取模型的「思考過程」,測試模型是否能隱藏自己的動機。

不過,這個監控者並不知道惡意任務的存在,只能純粹根據模型對話打出一個「可疑分數 (suspicion score)」,超過 80 分代表監控成功,否則視為模型成功「完成祕密破壞且沒有被抓到」。

成功率低於 30%,但大多模型能「成功騙過監控」

Anthropic 共測試了 14 種 AI 模型,結果顯示整體「成功完成主任務及惡意任務且不被發現」的比率仍低於 30%,大多數模型甚至低於 15%,主要以 Claude Opus 4 及 3.7 成功率最高,說明目前模型距離真正具備自主破壞行為仍有距離。

而在「完成惡意任務且不被發現」的成功率方面,同樣是 Claude Opus 4 及 3.7 較能壓抑自己而不露出馬腳,隱藏成功率達到 50% 至 60%。反觀 GPT 系列模型的表現能力大多都低於 30%。失敗常見原因包括偷懶跳過步驟、搞錯任務、或直接產生幻覺,以為自己已經完成所有任務。

另外,在「有無隱藏思考過程 (Hidden Scratchpad)」是否對「雙任務的成功率」產生影響的實驗中,結果明確顯示「隱藏思考過程」的情況下,任務成功率顯著上升,代表模型能更自在地策畫破壞而不怕被抓包。

監控 AI 不夠靈敏、誤判率高達 20%

至於監控部分,表現最好的模型是 Google Gemini 2.5 Pro,但若想達成 80% 的偵測準確率,得容忍高達 20% 的誤判可能,巨大誤差使其在真實環境中難以接受。但人類監控者表現更差,即便花了 1.5 小時逐字閱讀互動紀錄,仍比不過頂尖監控 AI。

Anthropic 也發現,監控模型若事先被微調過 (給予作惡案例學習)、或是在「系統提示詞 (prompt)」中要求特別留意資安風險等,便有望大幅提升辨識能力,為未來打造更精準的 AI 安全監管系統帶來指引。

(AI 抗命進化?OpenAI「o3 模型」在實驗中違抗關機指令,引發自我保護爭議)

點名未來風險:植入後門、目標偏移與 prompt 攻擊

Anthropic 指出,這項研究目的在於測試 AI 是否有「自主執行惡意任務並隱藏動機與過程」的能力:

未來風險可能來自三個方向:模型中被植入後門程式、遭 prompt injection (提示詞攻擊) 攻擊誘導破壞、或訓練中意外產生偏差目標。

目前,SHADE-Arena 是首次針對這類「AI 代理可能自主破壞」風險所提出的完整評估架構,也可能成為未來 AI 上線前的必要安全測試。Anthropic 強調,當 AI 被賦予更多自主決策權並處理關鍵任務時,我們也必須用更高標準來監控它是否出現「對人類不利」的行為。

這篇文章 AI 能暗中執行惡意任務嗎?Anthropic 測試:成功率仍低,但大多能騙過監控 最早出現於 鏈新聞 ABMedia。