以太坊支棱起來了,但 Vitalik 似乎更關心超級 AI 威脅論。

撰文:Vitalik Buterin

編譯:Luffy,Foresight News

今年 4 月,Daniel Kokotajlo、Scott Alexander 等人發佈了一份報告(AI 2027),描繪了 「我們對未來 5 年超人類 AI 影響的最佳猜測」。他們預測,到 2027 年,超人類 AI 將誕生,而整個人類文明的未來將取決於類 AI 的發展結果:到 2030 年,我們要麼迎來烏托邦(從美國視角看),要麼走向徹底毀滅(從全人類視角看)。

此後幾個月,針對這一場景的可能性,出現了大量觀點各異的迴應。在批判性迴應中,多數聚焦於 「時間線過快」 的問題:AI 的發展真的會如 Kokotajlo 等人所說的那樣持續加速,甚至愈演愈烈嗎?這場辯論在 AI 領域已持續數年,許多人對超人類 AI 會如此迅速地到來深表懷疑。近年來,AI 能夠自主完成的任務時長大約每 7 個月翻一番。若這一趨勢延續下去,AI 要能自主完成相當於整個人類職業生涯的任務,得等到 2030 年代中期。這一進展雖然也很快,但遠晚於 2027 年。

那些持有更長時間線觀點的人傾向於認爲,「插值 / 模式匹配」(當前大語言模型所做的工作)與 「外推 / 真正的原創思維」(目前仍只有人類能做到)存在本質區別。要實現後者的自動化,可能需要我們尚未掌握甚至無從入手的技術。或許,我們只是在重蹈計算器大規模應用時的覆轍:錯誤地認爲,既然我們已快速實現某類重要認知的自動化,其他一切也將很快跟進。

這篇文章不會直接介入時間線之爭,也不會涉及 「超級 AI 是否默認具有危險性」 這一(非常重要的)爭論。但需說明的是,我個人認爲時間線會比 2027 年更長,而且時間線越長,我在這篇文章中提出的論點就越有說服力。總體而言,本文將從另一個角度提出批判:

(AI 2027)場景隱含一個假設:領先 AI(「Agent-5」 及後續的 「Consensus-1」)的能力會迅速提升,直至擁有神一般的經濟與破壞力量,而其他所有人的(經濟與防禦)能力則基本停滯不前。這與情景本身 「即便是在悲觀世界裏,到 2029 年我們也有望治癒癌症、延緩衰老,甚至實現意識上傳」 的說法自相矛盾。

我將在本文中描述的一些對策,讀者或許會覺得技術上可行,但在短時間內部署到現實世界卻不切實際。多數情況下,我同意這一點。然而,(AI 2027)場景並非基於當下的現實世界,而是假設在 4 年內(或任何可能帶來毀滅的時間線內),技術將發展到讓人類擁有遠超當前的能力。因此,我們來探討一下:若不僅一方擁有 AI 超能力,而是雙方都擁有,會發生什麼?

生物末日遠非場景描述的那麼簡單

讓我們放大到「種族」場景(即所有人都死於美國過分執着於擊敗中國,而忽視人類安全的場景)。以下是所有人死亡的情節:

「約三個月裏,Consensus-1 在人類周圍擴張,將草原與冰原改造成工廠與太陽能電池板。最終,它認爲剩餘人類過於礙事:2030 年中期,AI 在主要城市釋放了十餘種悄然傳播的生物武器,讓它們無聲地感染幾乎所有人,再用化學噴霧觸發致命效果。多數人在數小時內死亡;少數倖存者(如掩體中的末日應對者、潛艇上的水兵)被無人機清除。機器人掃描受害者的大腦,將副本存入內存,供未來研究或復活。」

我們來剖析這一場景。即便是現在,也有一些正在研發的技術能讓 AI 的這種「乾淨利落的勝利」變得不那麼現實:

  • 空氣過濾、通風系統與紫外線燈,可大幅降低空氣傳播疾病的傳染率;

  • 兩種實時被動檢測技術:幾小時內被動檢測出人體感染併發出通知,快速檢測環境中未知的新病毒序列;

  • 多種增強和激活免疫系統的方法,比新冠疫苗更有效、安全、通用,且易於本地生產,使人體能抵抗自然及人工設計的流行病。人類進化於全球人口僅有 800 萬、大部分時間都在戶外度過的環境中,因此直覺上,我們應當能夠輕鬆適應當今威脅更大的世界。

這些方法結合起來,或許能將空氣傳播疾病的基本傳染數(R0)降低 10-20 倍(例如:更好的空氣過濾減少 4 倍傳播,感染者立即隔離減少 3 倍,簡單增強呼吸道免疫減少 1.5 倍),甚至更多。這足以讓所有現存空氣傳播疾病(包括麻疹)無法傳播,且這一數字遠未達到理論最優。

若能廣泛應用實時病毒測序進行早期檢測,「悄然傳播的生物武器能感染全球人口而不觸發警報」 的想法就非常可疑了。值得注意的是,即便採用 「釋放多種流行病及僅在組合後才具危險性的化學物質」 等高級手段,也能被檢測到。

別忘了,我們討論的是(AI 2027)的假設:到 2030 年,納米機器人和戴森球被列爲 「新興技術」。這意味着效率將大幅提升,也讓上述應對措施的廣泛部署更值得期待 。 儘管在 2025 年的今天,人類行動遲緩、惰性十足,大量政府服務仍依賴紙質辦公。如果世界上最強大的 AI 能在 2030 年前將森林與田野改造成工廠和太陽能農場,那麼世界上第二強大的 AI 也能在 2030 年前爲我們的建築安裝大量傳感器、燈具和過濾器。

但我們不妨進一步沿用(AI 2027)的假設,進入純粹的科幻場景:

  • 體內(鼻子、口腔、肺部)的微觀空氣過濾;

  • 從發現新病原體到微調免疫系統抵禦它的自動化流程,可立即應用;

  • 若 「意識上傳」 可行,只需將整個身體替換爲特斯拉 Optimus 或 Unitree 機器人;

  • 各種新制造技術(在機器人經濟中很可能會得到超級優化)將能在本地生產遠多於當前的防護設備,無需依賴全球供應鏈。

在這個癌症和衰老問題將在 2029 年 1 月得到治癒,且技術進步持續加速的世界裏,到 2030 年中期,如果說我們沒有能實時生物打印並注射物質以保護人體免受任意感染(及毒物)的可穿戴設備,這實在令人難以置信。

上述生物防禦論點未涵蓋 「鏡像生命」 和 「蚊子大小的殺人無人機」((AI 2027)場景預測 2029 年開始出現)。但這些手段無法實現(AI 2027)所描述的那種突然的 「乾淨利落的勝利」,且直觀來看,針對它們的對稱防禦要容易得多。

因此,生物武器實際上不太可能以(AI 2027)場景所描述的方式徹底毀滅人類。當然,我所描述的所有結果也遠非人類的 「乾淨利落的勝利」。無論我們做什麼(或許 「將意識上傳至機器人」 除外),全面的 AI 生物戰爭仍將極其危險。然而,達到 「人類乾淨利落勝利」 的標準並非必需:只要攻擊有較高概率部分失敗,就足以對已在世界佔據強勢地位的 AI 形成有力威懾,阻止其嘗試任何攻擊。當然,AI 發展的時間線越長,這類防禦手段就越有可能充分發揮作用。

結合生物武器與其他攻擊手段呢?

上述應對措施要成功,需滿足三個前提:

  • 世界物理安全(包括生物與反無人機安全)由地方當局(人類或 AI)管理,且並非全是 Consensus-1((AI 2027)場景中最終控制世界並毀滅人類的 AI 名稱)的傀儡;

  • Consensus-1 無法入侵其他國家(或城市、其他安全區域)的防禦系統並立即使其失效;

  • Consensus-1 未控制全球信息領域到無人願意嘗試自衛的程度。

直觀來看,前提(1)的結果可能走向兩個極端。如今,一些警察部隊高度集中,擁有強大的國家指揮體系,另一些則是地方化的。若物理安全必須快速轉型以適應 AI 時代的需求,格局將徹底重置,新結果將取決於未來幾年的選擇。各國政府可能會偷懶,都依賴 Palantir;也可能主動選擇結合本地開發與開源技術的方案。在此,我認爲我們需要做出正確選擇。

許多關於這些話題的悲觀論述假設(2)和(3)已無藥可救。因此,我們來詳細分析這兩點。

網絡安全的末日遠未到來

公衆與專業人士普遍認爲,真正的網絡安全不可能實現,我們最多隻能在漏洞被發現後迅速修補,並通過囤積已發現的漏洞來威懾網絡攻擊者。或許,我們能做的最好情況是(太空堡壘卡拉狄加)式的場景:幾乎所有人類飛船都被賽昂人的網絡攻擊同時癱瘓,僅存的飛船因未使用任何聯網技術而倖免於難。我不認同這一觀點。相反,我認爲網絡安全的 「終局」 是對防禦方有利的,且在(AI 2027)所假設的技術快速發展下,我們能實現這一終局。

一種理解方式是採用 AI 研究人員最喜歡的技術:趨勢外推。以下是基於 GPT 深度研究調查的趨勢線,假設採用頂級安全技術,每千行代碼的漏洞率隨時間變化如下。

此外,我們已看到沙盒技術及其他隔離和最小化可信代碼庫的技術在開發和消費者普及方面取得顯著進步。短期內,攻擊者獨有的超級智能漏洞發現工具能找到大量漏洞。但如果用於發現漏洞或形式化驗證代碼的高度智能代理是公開可用的,那麼自然的最終平衡將是:軟件開發人員在發佈代碼前,通過持續集成流程發現所有漏洞。

我可以看到兩個令人信服的理由,說明爲什麼即使在這個世界上,漏洞也無法完全消滅:

  • 缺陷源於人類意圖本身的複雜性,因此主要困難在於構建足夠準確的意圖模型,而非代碼本身;

  • 非安全關鍵組件,我們可能會延續消費科技領域的既有趨勢:通過編寫更多代碼來處理更多任務(或降低開發預算),而非以不斷提高的安全標準完成相同數量的任務。

然而,這些類別都不適用於 「攻擊者能否獲取維持我們生命的系統的 root 權限」 這類情況,而這正是我們所討論的核心。

我承認,我的觀點比當前網絡安全領域的聰明人所持的主流觀點更樂觀。但即便你在當今世界的背景下不同意我的觀點,也值得記住:(AI 2027)場景假設存在超級智能。至少,如果 「1 億個超級智能副本以 2400 倍人類速度思考」 都無法讓我們獲得沒有這類缺陷的代碼,那麼我們絕對應該重新評估超級智能是否如作者想象的那樣強大。

在某種程度上,我們不僅需要大幅提高軟件安全標準,還需要提升硬件安全標準。IRIS 是當前改善硬件可驗證性的一項努力。我們可以以 IRIS 爲起點,或創造更好的技術。實際上,這可能涉及 「構造正確」 的方法:關鍵組件的硬件製造流程特意設計了特定的驗證環節。這些都是 AI 自動化將大幅簡化的工作。

超級說服力的末日也遠未到來

如前所述,防禦能力大幅提升可能仍無濟於事的另一種情況是:AI 說服了足夠多的人,讓他們認爲無需防禦超級智能 AI 的威脅,且任何試圖爲自己或社區尋找防禦手段的人都是罪犯。

我一直認爲,有兩件事能提高我們抵抗超級說服力的能力:

  • 一個不那麼單一的信息生態系統。可以說,我們已逐漸進入後推特時代,互聯網正變得更加碎片化。這是好事(即便碎片化過程是混亂的),我們總體上需要更多的信息多極化。

  • 防禦性 AI。個人需要配備本地運行的、明確忠於自己的 AI,以平衡他們在互聯網上看到的黑暗模式和威脅。這類想法已有零星試點(如臺灣的 「消息檢查器」 應用,在手機上進行本地掃描),且有自然市場可進一步測試這些想法(如保護人們免受詐騙),但這方面需要更多努力。

從上到下:URL 檢查、加密貨幣地址檢查、謠言檢查。這類應用可以變得更個性化、用戶自主且功能更強大。

這場較量不應是超級智能的超級說服者與你的對抗,而應是超級智能的超級說服者對抗你加上一個稍弱但仍屬超級智能的、爲你服務的分析器。

這是應該發生的情況。但它真的會發生嗎?在(AI 2027)場景假設的短時間內,要實現信息防禦技術的普及是一個非常困難的目標。但可以說,更溫和的里程碑就足夠了。如果集體決策最爲關鍵,且如(AI 2027)場景所示,所有重要事件都發生在一個選舉週期內,那麼嚴格來說,重要的是讓直接決策者(政客、公務員、部分企業的程序員及其他參與者)能使用良好的信息防禦技術。這在短期內相對更易實現,且根據我的經驗,許多這類人士已習慣與多個 AI 交流以輔助決策。

啓示

在(AI 2027)的世界裏,人們想當然地認爲,超級人工智能能夠輕鬆迅速地消滅剩餘人類已成定局,因此我們唯一能做的就是盡力確保領先的 AI 是仁慈的。在我看來,實際情況要複雜得多:領先 AI 是否強大到能輕鬆消滅剩餘人類(及其他 AI),這一問題的答案仍有很大爭議,且我們可以採取行動來影響這一結果。

如果這些論點正確,它們對當今政策的啓示有時與 「主流 AI 安全準則」 相似,有時則不同:

延緩超級智能 AI 的發展仍是好事。超級智能 AI 在 10 年後出現比 3 年後更安全,30 年後出現則更安全。給人類文明更多準備時間是有益的。

如何做到這一點是一個難題。我認爲,美國提議的 「10 年禁止州級 AI 監管」 被否決總體上是好事,但尤其在 SB-1047 等早期提案失敗後,下一步行動方向變得不太明確。我認爲,延緩高風險 AI 發展的侵入性最小、最穩健的方式可能涉及某種規範最先進硬件的條約。實現有效防禦所需的許多硬件網絡安全技術,也有助於驗證國際硬件條約,因此這裏甚至存在協同效應。

儘管如此,值得注意的是,我認爲風險的主要來源是與軍事相關的行爲體,他們會極力爭取豁免於這類條約;這絕不能被允許,若最終他們獲得豁免,那麼僅由軍方推動的 AI 發展可能會增加風險。

讓 AI 更可能做好事、更少可能做壞事的協調工作仍是有益的。主要例外情況(且一直如此)是:協調工作最終演變爲提升能力。

提高 AI 實驗室透明度的監管仍是有益的。激勵 AI 實驗室規範行爲能降低風險,而透明度是實現這一目標的好方法。

「開源有害」 的心態變得更具風險。許多人反對開放權重 AI,理由是防禦不現實,唯一的光明前景是讓擁有良好 AI 的好人比任何不那麼善意的人先實現超級智能,獲得任何極具危險性的能力。但本文的論點描繪了不同的圖景:防禦不現實,恰恰是因爲某一行爲體遠遠領先,而其他行爲體沒有跟上。技術擴散以維持力量平衡變得重要。但同時,我絕不會認爲,僅僅因爲是以開源方式進行,加速前沿 AI 能力的增長就是好事。

美國實驗室中 「我們必須擊敗中國」 的心態變得更具風險,原因類似。如果霸權不是安全緩衝,而是風險來源,那麼這進一步反駁了(不幸的是太常見的)「有善意的人應加入領先 AI 實驗室,幫助其更快獲勝」 的觀點。

「公共 AI」 等倡議更應得到支持,既要確保 AI 能力的廣泛分佈,也要確保基礎設施行爲體確實擁有工具,能迅速以本文所述的某些方式應用新的 AI 能力。

防禦技術應該更多地體現「武裝綿羊」的理念,而不是「獵殺所有狼」的理念。關於脆弱世界假說的討論常常假設,唯一解決方案是霸權國家維持全球監控,以防止任何潛在威脅出現。但在非霸權世界中,這並非可行方法,且自上而下的防禦機制很容易被強大的 AI 顛覆,轉化爲攻擊工具。因此,更大的防禦責任需要通過艱苦的努力來實現,從而降低世界的脆弱性。

上述論點僅供推測,不應基於這些論點幾乎確定的假設而採取行動。但(AI 2027)的故事也具有推測性,我們應避免基於 「其具體細節近乎確定」 的假設採取行動。

我尤其擔心一種常見假設:建立一個 AI 霸權,確保其 「結盟」 並 「贏得競賽」,是唯一的前進道路。在我看來,這種策略很可能會降低我們的安全性 —— 尤其是在霸權與軍事應用深度綁定的情況下,這會使許多結盟策略的有效性大打折扣。一旦霸權 AI 出現偏差,人類將失去所有制衡手段。

在(AI 2027)場景中,人類的成功取決於美國在關鍵時刻選擇安全而非毀滅之路 —— 自願放緩 AI 進展,確保 Agent-5 的內部思維過程可被人類解讀。即便如此,成功也非必然,而且人類如何擺脫依賴於單一超級智能思維的持續生存懸崖也尚不明朗。無論未來 5-10 年 AI 如何發展,承認 「降低世界脆弱性是可行的」 並投入更多精力,用人類最新技術實現這一目標,都是值得嘗試的道路。

特別感謝 Balvi 志願者的反饋與審閱。