據 Cointelegraph 報道,北卡羅來納大學教堂山分校的三位科學家最近發表了一篇關於人工智能(AI)的預印本研究,展示了從大型語言模型(LLM)如OpenAI的ChatGPT和谷歌的Bard中刪除敏感數據的難度。
研究人員的論文指出,從LLM中“刪除”信息是可能的,但驗證信息已被刪除的難度與實際刪除信息的難度一樣大。
當LLM在大型數據集上訓練時,可能會輸出敏感信息,如個人身份信息、財務記錄或其他可能有害/不需要的輸出。目前,AI開發人員使用諸如硬編碼提示的防護措施來抑制特定行爲,或者通過人類反饋進行強化學習(RLHF)。
然而,北卡羅來納大學的研究人員指出,這種方法依賴於人類發現模型可能存在的所有缺陷,即使成功,也無法從模型中“刪除”信息。
最終,研究人員得出結論,即使是最先進的模型編輯方法,如Rank-One Model Editing(ROME),也無法完全從LLM中刪除事實信息,因爲在白盒攻擊中仍有38%的時間可以提取事實信息,在黑盒攻擊中有29%的時間可以提取事實信息。