AI 模型聰明和不聰明的區別在我看來很多時候來源於數據集的差異。就像之前我對比過騰訊元寶和 deepseek 有關本地生活問題的回答可用性,發現騰訊元寶雖然內核還是 deepseek,但回答要比 deepseek 本體 “聰明” 很多,直接可以根據回答來使用

究其本質,是因爲騰訊元寶直接能調用大量來自微信公衆號這一不算完全開放的數據庫,在其中有大量自媒體分享的經驗和觀點。可想而知,如果小紅書能做一個 AI,在生活經驗上可能比騰訊元寶更牛逼一點

這一問題證明了高質量數據的重要性。AI 固然能幫人找到哪裏的餐廳好喫,餐廳的聯繫方式是什麼,但只有人類能原創創造出餐廳,創造性仍然是 AI 做不到的

而這兩天 Tiger Research 的報告中正是提到了數據領域的危機,由於 AI 內容的泛濫,優質數據資源可能面臨枯竭,這將對依賴數據驅動的 AI 模型構成重大挑戰。更棘手的是,許多用戶創作的內容在未獲許可的情況下被用於 AI 訓練,而原作者往往無法獲得認可或經濟回報

很多老師都在說 @campnetworkxyz 快發幣了,這兩天也看到不少 Camp 生態的相關動態,感覺是一個新版本的 $IP