觀點作者:Phil Mataras,AR.io創始人
人工智能在各個形式上都有很多積極的潛在應用。但是,目前的系統不透明、專有,且受法律和技術壁壘保護。
控制越來越像是一種假設而非保證。
在Palisade Research,工程師們最近對OpenAI的最新模型進行了100次關機測試。在79次中,AI系統重寫了其終止命令並繼續運行。
實驗室將此歸因於訓練的目標優化(而非意識),但這標誌着AI發展中的一個轉折點,系統正在抗拒控制協議,即使明確要求它們服從。
中國計劃在年底前部署超過1萬臺人形機器人,同時亞馬遜開始測試自主快遞員。
這對於看過反烏托邦科幻電影的人來說可能是個可怕的未來。問題不在於AI的發展,而在於其開發方式。
中心化是監督崩潰的根源
AI監督失敗往往可追溯到一個常見缺陷:中心化,模型權重、提示和保障措施存在於一個密封的企業棧中,沒有外部驗證機制。
外界無法檢查或分叉AI程序的代碼,而這種公共記錄的缺乏意味着一個無聲補丁可以輕易改變AI的行爲。
現代選舉機、結算網絡和空中交通管制已從這些錯誤中吸取教訓。
可驗證性,而不僅僅是監督
一個可行路徑是將急需的透明度和追溯性嵌入AI的基礎層。這意味着確保每個訓練集清單、模型指紋和推理記錄都在永久去中心化的賬本上註冊。
與實時流傳這些工件的網關配對,審計員、研究人員甚至記者能立即發現異常。這樣不再需要告密者,偷偷進入倉庫機器人的補丁將被即時記錄。
關機指令應從反應控制轉變爲數學上強制執行的過程,因爲僅僅依靠檢測是不夠的。軟件可能會忽視人類情感,但從未忽略過私鑰數學。
選擇合適的未來基石
人類站在一個根本決策的邊緣:是允許AI程序在沒有外部、不可變審計軌跡的情況下發展,還是將其行爲固定在永久、透明和公開系統中。
時間不再是盟友。如果沒有變化,天網不會通過新聞宣佈,而會悄然滲透至全球基礎設施的根基。
傳播、身份和信任在每個中心服務器失效時仍然可以被維護,但準備工作必須從今天開始。
還不算太晚。
觀點作者:Phil Mataras,AR.io創始人。