昨天馬斯克的一則推文,揭開了一個事實,當前的 AI 大模型,已經充滿了錯誤和垃圾,以至於爲了上線新一代 Grok,馬斯克的 xAI團隊不得不重新梳理一遍整個人類的知識庫,以便於“把遺漏的補上,把錯的刪掉!”

​其實,每個大模型的品質不僅來源於其推理能力,更加決定於訓練所用的數據庫。谷歌Gemini很高的品質呈現,源於 Google 搜索引擎嚴謹的算法和高質量的內容積累,但也難免被一些網絡上的垃圾所腐化。ChatGPT 等品質大幅下滑,也和生成式AI 的內容以訛傳訛有關。

比較嚴重的是中文世界的DeepSeek,已經被謠言和錯誤信息污染到無法被信任,因爲採用了大量的垃圾信息,國內很多大模型的狀況都是如此。

​但是馬斯克說的,再用乾淨的數據重新訓練模型的說法,也存在很大的問題——什麼纔是乾淨的數據,誰來判斷是否乾淨?因爲認知和知識的侷限性,靠人工判斷顯然不現實,如果靠 AI來校驗 AI,能力和尺度也不太值得信任。

​全世界的生成式 AI 都已經被污染,這個或許就是殘酷的事實。

當然,原生態的數據經過整理之後,品質肯定會好很多,但是尺度把握不當,更大範圍的污染將會發生。

$BTC

$ETH

$DOGE